На что стоит обращать внимание при создании моделей видео-языкового взаимодействия?What matters when building vision-language models?
Растущий интерес к моделям видео-языка (VLM) был вызван улучшениями в больших языковых моделях и видовых трансформерах. Несмотря на обилие литературы по этой теме, мы замечаем, что критические решения относительно проектирования VLM часто не обоснованы. Мы утверждаем, что эти неподтвержденные решения затрудняют прогресс в области, делая сложным определение, какие выборы улучшают производительность модели. Для решения этой проблемы мы проводим обширные эксперименты вокруг предварительно обученных моделей, выбора архитектуры, данных и методов обучения. Наша консолидация результатов включает разработку Idefics2, эффективной базовой VLM с 8 миллиардами параметров. Idefics2 достигает передовой производительности в своей категории размера на различных мультимодальных бенчмарках и часто находится на уровне моделей в четыре раза большего размера. Мы выпускаем модель (базовую, инструктируемую и чатовую) вместе с созданными для ее обучения наборами данных.