Дистилляция моделей "визуальный язык" на миллионах видео
Distilling Vision-Language Models on Millions of Videos
January 11, 2024
Авторы: Yue Zhao, Long Zhao, Xingyi Zhou, Jialin Wu, Chun-Te Chu, Hui Miao, Florian Schroff, Hartwig Adam, Ting Liu, Boqing Gong, Philipp Krähenbühl, Liangzhe Yuan
cs.AI
Аннотация
Недавний прогресс в моделях, объединяющих зрение и язык, во многом обусловлен обилием данных, состоящих из изображений и текста. Мы стремимся повторить этот успех для моделей, работающих с видео и текстом, однако доступных данных, состоящих из видео и текста, созданных человеком, просто недостаточно. Поэтому мы прибегаем к тонкой настройке модели для работы с видео и текстом на основе сильной базовой модели для изображений и текста, используя синтезированные обучающие данные. Полученная модель для видео и текста затем применяется для автоматической разметки миллионов видео с целью генерации высококачественных описаний. Мы демонстрируем, что адаптированная модель для видео и текста показывает отличные результаты на широком спектре тестовых задач, связанных с видео и текстом. Например, она превосходит лучший предыдущий результат на открытом тесте NExT-QA на 2,8%. Кроме того, наша модель генерирует детальные описания для ранее не встречавшихся видео, что обеспечивает лучшее текстовое сопровождение по сравнению с существующими методами. Эксперименты показывают, что модель с двойным кодированием для видео и текста, обученная контрастным методом на этих автоматически сгенерированных описаниях, на 3,8% превосходит самый сильный базовый метод, который также использует модели, объединяющие зрение и язык. Наша лучшая модель превосходит современные методы на тесте MSR-VTT для поиска видео по тексту в условиях zero-shot на 6%.
English
The recent advance in vision-language models is largely attributed to the
abundance of image-text data. We aim to replicate this success for
video-language models, but there simply is not enough human-curated video-text
data available. We thus resort to fine-tuning a video-language model from a
strong image-language baseline with synthesized instructional data. The
resulting video-language model is then used to auto-label millions of videos to
generate high-quality captions. We show the adapted video-language model
performs well on a wide range of video-language benchmarks. For instance, it
surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our
model generates detailed descriptions for previously unseen videos, which
provide better textual supervision than existing methods. Experiments show that
a video-language dual-encoder model contrastively trained on these
auto-generated captions is 3.8% better than the strongest baseline that also
leverages vision-language models. Our best model outperforms state-of-the-art
methods on MSR-VTT zero-shot text-to-video retrieval by 6%.