Vereinheitlichte Vision-Sprache-Modellierung durch Konzeptraum-Abgleich
Unified Vision-Language Modeling via Concept Space Alignment
March 1, 2026
Autoren: Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk
cs.AI
Zusammenfassung
Wir stellen V-SONAR vor, einen Vision-Language-Einbettungsraum, der aus dem textbasierten Einbettungsraum SONAR (Omnilingual Embeddings Team et al., 2026) erweitert wurde und 1500 Textsprachen sowie 177 Sprachsprachen unterstützt. Für die Konstruktion von V-SONAR schlagen wir einen nachgelagerten Alignment-Prozess vor, der die Repräsentationen eines existierenden Vision-Encoders in den SONAR-Raum abbildet. Wir evaluieren V-SONAR umfassend und zeigen, dass seine Einbettungen wettbewerbsfähige Leistungen bei der Text-zu-Video-Retrieval erzielen. Ausgestattet mit dem OMNISONAR-Textdecoder übertrifft V-SONAR zudem state-of-the-art Vision-Language-Modelle bei Video-Captioning-Aufgaben, einschließlich DREAM-1K (BLEU 23,9 vs. 19,6) und PE-VIDEO (BLEU 39,0 vs. 30,0).
Unter Nutzung von V-SONAR demonstrieren wir zunächst, dass das Large Concept Model (LCM; LCM Team et al. 2024), das in SONAR operiert und nur mit englischem Text trainiert wurde, sowohl einzelne als auch mehrere visuelle Konzepte auf Zero-Shot-Weise verstehen kann. Abschließend stellen wir V-LCM vor, das das LCM durch Vision-Language-Instruction-Tuning erweitert. V-LCM kodiert visuelle und sprachliche Eingaben über V-SONAR und SONAR in eine vereinheitlichte Folge latenter Einbettungen und wird mit demselben latenten Diffusionsziel zur nächsten Einbettungsvorhersage trainiert wie beim textbasierten Pre-Training des LCM. Experimente mit einer groß angelegten multilingualen und -modalen Instruction-Tuning-Datenmischung unterstreichen das Potenzial von V-LCM: V-LCM erreicht state-of-the-art Vision-Language-Modelle bei Aufgaben zu Bild-/Videobeschreibung und Fragebeantwortung und übertrifft sie gleichzeitig signifikant in 61 von insgesamt 62 getesteten Sprachen, von ressourcenstarken bis zu ressourcenschwachen Sprachen.
English
We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0).
Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.