EVEv2: Улучшенные базовые модели для моделей видео-языка без кодировщика
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models
February 10, 2025
Авторы: Haiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang
cs.AI
Аннотация
Существующие модели видео-языкового восприятия без кодировщика (VLM) быстро сокращают разрыв в производительности по сравнению с моделями на основе кодировщика, подчеркивая перспективный потенциал объединенных мультимодальных систем с простой структурой и эффективным развертыванием. Мы систематически проясняем разрыв в производительности между VLM, использующими предварительно обученные видео-кодировщики, дискретные токенизаторы и минималистические визуальные слои с нуля, глубоко исследуя малоизученные характеристики моделей VLM без кодировщика. Мы разрабатываем эффективные стратегии для моделей VLM без кодировщика, которые не уступают основным моделям на основе кодировщика. После тщательного исследования мы запускаем EVEv2.0, новое и улучшенное семейство моделей VLM без кодировщика. Мы показываем, что: (i) Правильное декомпозирование и иерархическое ассоциирование видения и языка в рамках единой модели снижает взаимное влияние между модальностями. (ii) Хорошо спроектированная стратегия обучения обеспечивает эффективную оптимизацию для моделей VLM без кодировщика. Через обширное оценивание наш EVEv2.0 представляет собой всестороннее исследование разработки архитектуры только с декодером через модальности, демонстрируя превосходную эффективность данных и сильные возможности визионно-рассуждательного обучения. Код общедоступен по адресу: https://github.com/baaivision/EVE.
English
Existing encoder-free vision-language models (VLMs) are rapidly narrowing the
performance gap with their encoder-based counterparts, highlighting the
promising potential for unified multimodal systems with structural simplicity
and efficient deployment. We systematically clarify the performance gap between
VLMs using pre-trained vision encoders, discrete tokenizers, and minimalist
visual layers from scratch, deeply excavating the under-examined
characteristics of encoder-free VLMs. We develop efficient strategies for
encoder-free VLMs that rival mainstream encoder-based ones. After an in-depth
investigation, we launch EVEv2.0, a new and improved family of encoder-free
VLMs. We show that: (i) Properly decomposing and hierarchically associating
vision and language within a unified model reduces interference between
modalities. (ii) A well-designed training strategy enables effective
optimization for encoder-free VLMs. Through extensive evaluation, our EVEv2.0
represents a thorough study for developing a decoder-only architecture across
modalities, demonstrating superior data efficiency and strong vision-reasoning
capability. Code is publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary