Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning | IEEE Conference Publication | IEEE Xplore