Унифицированное моделирование «зрение–язык» через выравнивание концептуального пространства
Unified Vision-Language Modeling via Concept Space Alignment
March 1, 2026
Авторы: Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk
cs.AI
Аннотация
Мы представляем V-SONAR — пространство визуально-языковых эмбеддингов, расширенное на основе текстового пространства SONAR (Omnilingual Embeddings Team et al., 2026), которое поддерживает 1500 текстовых и 177 речевых языков. Для построения V-SONAR мы предлагаем процедуру пост-обработки, которая отображает представления существующего визуального энкодера в пространство SONAR. Мы проводим всестороннюю оценку V-SONAR и показываем, что его эмбеддинги демонстрируют конкурентоспособные результаты в задаче поиска видео по тексту. Оснащенный текстовым декодером OMNISONAR, V-SONAR дополнительно превосходит современные визуально-языковые модели в задачах описания видео, включая DREAM-1K (BLEU 23.9 против 19.6) и PE-VIDEO (BLEU 39.0 против 30.0).
Используя V-SONAR, мы впервые демонстрируем, что Large Concept Model (LCM; LCM team et al., 2024), работающая в пространстве SONAR и обученная только на английских текстах, способна выполнять как понимание единичных, так и множественных визуальных концептов в zero-shot режиме. Наконец, мы представляем V-LCM, которая расширяет LCM за счет тонкой настройки на визуально-языковых инструкциях. V-LCM кодирует визуальные и языковые входные данные в унифицированную последовательность латентных эмбеддингов через V-SONAR и SONAR и обучается с тем же латентным диффузионным целевым критерием предсказания следующего эмбеддинга, что и в текстовом предварительном обучении LCM. Эксперименты на крупномасштабной многозадачной мультиязыковой смеси данных для инструктивной настройки подчеркивают потенциал V-LCM: модель соответствует современным визуально-языковым моделям в задачах описания изображений/видео и ответов на вопросы, при этом значительно превосходя их на 61 языке из 62 протестированных — от ресурсообеспеченных до малоресурсных.
English
We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0).
Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.