Geünificeerd Vision-Language Modelleren via Conceptruimte-uitlijning
Unified Vision-Language Modeling via Concept Space Alignment
March 1, 2026
Auteurs: Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk
cs.AI
Samenvatting
Wij introduceren V-SONAR, een visie-taal inbedruimte die is uitgebreid vanuit de uitsluitend op tekst gebaseerde inbedruimte SONAR (Omnilingual Embeddings Team et al., 2026), welke 1500 teksttalen en 177 spreektalen ondersteunt. Voor de constructie van V-SONAR stellen wij een post-hoc aligneringspijplijn voor die de representaties van een bestaande visie-encoder afbeeldt op de SONAR-ruimte. Wij evalueren V-SONAR grondig en tonen aan dat de inbeddingen competitieve prestaties leveren voor tekst-naar-video-retrieval. Uitgerust met de OMNISONAR tekstdecoder, overtreft V-SONAR verder de state-of-the-art visie-taalmodellen bij videobeschrijvingstaken, waaronder DREAM-1K (BLEU 23,9 vs. 19,6) en PE-VIDEO (BLEU 39,0 vs. 30,0).
Door gebruik te maken van V-SONAR, demonstreren wij eerst dat het Large Concept Model (LCM; LCM team et al. 2024), dat opereert in SONAR en uitsluitend met Engelse tekst is getraind, zowel enkelvoudig als meervoudig visueel begrip kan uitvoeren op een zero-shot-manier. Ten slotte introduceren wij V-LCM, dat de LCM uitbreidt met visie-taal instructie-afstemming. V-LCM codeert visuele en talige invoer in een verenigde reeks latente inbeddingen via V-SONAR en SONAR, en wordt getraind met hetzelfde latente diffusiedoel voor volgende-inbedding-voorspelling als in de uitsluitend tekstgebaseerde pre-training van LCM. Experimenten op een grootschalige, meertalige en multimodale mix van instructie-afstemmingsdata benadrukken het potentieel van V-LCM: V-LCM evenaart state-of-the-art visie-taalmodellen bij taken zoals beeld/video-beschrijving en vraag-antwoord, en presteert significant beter in 61 rijke tot arme talen van de in totaal 62 geteste talen.
English
We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0).
Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.