ChatPaper.aiChatPaper

Раскрытие моделей видео-языкового взаимодействия без кодировщика.

Unveiling Encoder-Free Vision-Language Models

June 17, 2024
Авторы: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI

Аннотация

Существующие модели видео-языка (VLMs) в основном полагаются на визуальные кодировщики для извлечения визуальных признаков, за которыми следуют большие языковые модели (LLMs) для задач видео-языка. Однако визуальные кодировщики устанавливают сильное индуктивное смещение в абстрагировании визуального представления, например, разрешение, соотношение сторон и семантические априори, что может затруднить гибкость и эффективность VLMs. Обучение чистых VLMs, которые принимают непрерывные входы видео и языка, т.е. без визуальных кодировщиков, остается сложным и редко исследуемым. Эмпирические наблюдения показывают, что прямое обучение без кодировщиков приводит к медленной сходимости и большим разрывам в производительности. В данной работе мы сокращаем разрыв между моделями на основе кодировщиков и моделями без кодировщиков, и представляем простой, но эффективный метод обучения для чистых VLMs. В частности, мы раскрываем ключевые аспекты эффективного обучения VLMs без кодировщиков через тщательные эксперименты: (1) Связывание представления видео-языка внутри одного объединенного декодера; (2) Улучшение возможностей визуального распознавания с помощью дополнительного наблюдения. С помощью этих стратегий мы запускаем EVE, модель видео-языка без кодировщика, которую можно обучать и применять эффективно. Следует отметить, что, используя только 35M публично доступных данных, EVE впечатляюще конкурирует с моделями на основе кодировщиков аналогичной мощности по нескольким бенчмаркам видео-языка. Она значительно превосходит аналог Fuyu-8B с таинственными процедурами обучения и неопубликованными данными обучения. Мы считаем, что EVE предоставляет прозрачный и эффективный путь для разработки чистой архитектуры только с декодером через модальности. Наш код и модели доступны по адресу: https://github.com/baaivision/EVE.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to extract visual features followed by large language models (LLMs) for visual-language tasks. However, the vision encoders set a strong inductive bias in abstracting visual representation, e.g., resolution, aspect ratio, and semantic priors, which could impede the flexibility and efficiency of the VLMs. Training pure VLMs that accept the seamless vision and language inputs, i.e., without vision encoders, remains challenging and rarely explored. Empirical observations reveal that direct training without encoders results in slow convergence and large performance gaps. In this work, we bridge the gap between encoder-based and encoder-free models, and present a simple yet effective training recipe towards pure VLMs. Specifically, we unveil the key aspects of training encoder-free VLMs efficiently via thorough experiments: (1) Bridging vision-language representation inside one unified decoder; (2) Enhancing visual recognition capability via extra supervision. With these strategies, we launch EVE, an encoder-free vision-language model that can be trained and forwarded efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can impressively rival the encoder-based VLMs of similar capacities across multiple vision-language benchmarks. It significantly outperforms the counterpart Fuyu-8B with mysterious training procedures and undisclosed training data. We believe that EVE provides a transparent and efficient route for developing a pure decoder-only architecture across modalities. Our code and models are publicly available at: https://github.com/baaivision/EVE.

Summary

AI-Generated Summary

PDF554November 28, 2024