На что стоит обращать внимание при создании моделей видео-языкового взаимодействия?
What matters when building vision-language models?
May 3, 2024
Авторы: Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
cs.AI
Аннотация
Растущий интерес к моделям видео-языка (VLM) был вызван улучшениями в больших языковых моделях и видовых трансформерах. Несмотря на обилие литературы по этой теме, мы замечаем, что критические решения относительно проектирования VLM часто не обоснованы. Мы утверждаем, что эти неподтвержденные решения затрудняют прогресс в области, делая сложным определение, какие выборы улучшают производительность модели. Для решения этой проблемы мы проводим обширные эксперименты вокруг предварительно обученных моделей, выбора архитектуры, данных и методов обучения. Наша консолидация результатов включает разработку Idefics2, эффективной базовой VLM с 8 миллиардами параметров. Idefics2 достигает передовой производительности в своей категории размера на различных мультимодальных бенчмарках и часто находится на уровне моделей в четыре раза большего размера. Мы выпускаем модель (базовую, инструктируемую и чатовую) вместе с созданными для ее обучения наборами данных.
English
The growing interest in vision-language models (VLMs) has been driven by
improvements in large language models and vision transformers. Despite the
abundance of literature on this subject, we observe that critical decisions
regarding the design of VLMs are often not justified. We argue that these
unsupported decisions impede progress in the field by making it difficult to
identify which choices improve model performance. To address this issue, we
conduct extensive experiments around pre-trained models, architecture choice,
data, and training methods. Our consolidation of findings includes the
development of Idefics2, an efficient foundational VLM of 8 billion parameters.
Idefics2 achieves state-of-the-art performance within its size category across
various multimodal benchmarks, and is often on par with models four times its
size. We release the model (base, instructed, and chat) along with the datasets
created for its training.Summary
AI-Generated Summary