Раскрытие моделей видео-языкового взаимодействия без кодировщика.Unveiling Encoder-Free Vision-Language Models
Существующие модели видео-языка (VLMs) в основном полагаются на визуальные кодировщики для извлечения визуальных признаков, за которыми следуют большие языковые модели (LLMs) для задач видео-языка. Однако визуальные кодировщики устанавливают сильное индуктивное смещение в абстрагировании визуального представления, например, разрешение, соотношение сторон и семантические априори, что может затруднить гибкость и эффективность VLMs. Обучение чистых VLMs, которые принимают непрерывные входы видео и языка, т.е. без визуальных кодировщиков, остается сложным и редко исследуемым. Эмпирические наблюдения показывают, что прямое обучение без кодировщиков приводит к медленной сходимости и большим разрывам в производительности. В данной работе мы сокращаем разрыв между моделями на основе кодировщиков и моделями без кодировщиков, и представляем простой, но эффективный метод обучения для чистых VLMs. В частности, мы раскрываем ключевые аспекты эффективного обучения VLMs без кодировщиков через тщательные эксперименты: (1) Связывание представления видео-языка внутри одного объединенного декодера; (2) Улучшение возможностей визуального распознавания с помощью дополнительного наблюдения. С помощью этих стратегий мы запускаем EVE, модель видео-языка без кодировщика, которую можно обучать и применять эффективно. Следует отметить, что, используя только 35M публично доступных данных, EVE впечатляюще конкурирует с моделями на основе кодировщиков аналогичной мощности по нескольким бенчмаркам видео-языка. Она значительно превосходит аналог Fuyu-8B с таинственными процедурами обучения и неопубликованными данными обучения. Мы считаем, что EVE предоставляет прозрачный и эффективный путь для разработки чистой архитектуры только с декодером через модальности. Наш код и модели доступны по адресу: https://github.com/baaivision/EVE.