Efficient GPU Resource Management under Latency and Power Constraints for Deep Learning Inference

Efficient GPU Resource Management under Latency and Power Constraints for Deep Learning Inference | IEEE Conference Publication | IEEE Xplore