Modellazione Unificata Visione-Linguaggio tramite Allineamento dello Spazio Concettuale

Abstract

Introduciamo V-SONAR, uno spazio di incorporamento visione-linguaggio esteso dallo spazio di incorporamento esclusivamente testuale SONAR (Omnilingual Embeddings Team et al., 2026), che supporta 1500 lingue testuali e 177 lingue parlate. Per costruire V-SONAR, proponiamo una pipeline di allineamento post-hoc che mappa le rappresentazioni di un encoder visivo esistente nello spazio SONAR. Valutiamo approfonditamente V-SONAR e dimostriamo che i suoi incorporamenti raggiungono prestazioni competitive nel retrieval video-da-testo. Dotato del decodificatore testuale OMNISONAR, V-SONAR supera ulteriormente i modelli stato dell'arte di visione-linguaggio nelle attività di descrizione video, inclusi DREAM-1K (BLEU 23.9 vs. 19.6) e PE-VIDEO (BLEU 39.0 vs. 30.0). Sfruttando V-SONAR, dimostriamo innanzitutto che il Large Concept Model (LCM; LCM team et al. 2024), che opera in SONAR ed è stato addestrato solo su testo in inglese, può eseguire la comprensione di concetti visivi singoli e multipli in maniera zero-shot. Infine, introduciamo V-LCM, che estende l'LCM con un tuning basato su istruzioni visione-linguaggio. V-LCM codifica gli input visivi e linguistici in una sequenza unificata di incorporamenti latenti tramite V-SONAR e SONAR, ed è addestrato con lo stesso obiettivo di diffusione latente per la predizione dell'incorporamento successivo utilizzato nella pre-addestramento esclusivamente testuale dell'LCM. Esperimenti su una miscela di dati su larga scala, multilingue e multimodale, per il tuning su istruzioni evidenziano il potenziale di V-LCM: V-LCM eguaglia i modelli stato dell'arte di visione-linguaggio in attività che coprono la descrizione di immagini/video e question answering, superandoli significativamente in 61 lingue, da quelle con risorse abbondanti a quelle con risorse scarse, su un totale di 62 lingue testate.

English

We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0). Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.

Modellazione Unificata Visione-Linguaggio tramite Allineamento dello Spazio Concettuale

Unified Vision-Language Modeling via Concept Space Alignment

Abstract

Support