Modelado Unificado de Visión y Lenguaje mediante Alineación en el Espacio Conceptual

Resumen

Presentamos V-SONAR, un espacio de incrustación visión-lenguaje extendido a partir del espacio de incrustación de solo texto SONAR (Omnilingual Embeddings Team et al., 2026), que admite 1500 lenguajes de texto y 177 lenguajes de habla. Para construir V-SONAR, proponemos un pipeline de alineación *post-hoc* que mapea las representaciones de un codificador visual existente al espacio SONAR. Evaluamos exhaustivamente V-SONAR y demostramos que sus incrustaciones logran un rendimiento competitivo en la recuperación de texto a video. Equipado con el decodificador de texto OMNISONAR, V-SONAR supera además a los modelos estado del arte visión-lenguaje en tareas de descripción de video, incluyendo DREAM-1K (BLEU 23.9 vs. 19.6) y PE-VIDEO (BLEU 39.0 vs. 30.0). Aprovechando V-SONAR, demostramos primero que el Modelo de Gran Concepto (LCM; LCM team et al. 2024), que opera en SONAR y fue entrenado únicamente con texto en inglés, puede realizar comprensión de conceptos visuales únicos y múltiples de manera *zero-shot*. Finalmente, presentamos V-LCM, que extiende el LCM mediante ajuste instruccional visión-lenguaje. V-LCM codifica entradas visuales y lingüísticas en una secuencia unificada de incrustaciones latentes mediante V-SONAR y SONAR, y se entrena con el mismo objetivo de difusión latente para la predicción de la siguiente incrustación que en el pre-entrenamiento de solo texto del LCM. Los experimentos en una mezcla de datos de ajuste instruccional multimodal y multilingüe a gran escala resaltan el potencial de V-LCM: este iguala a los modelos estado del arte visión-lenguaje en tareas que cubren descripción de imágenes/videos y respuesta a preguntas, mientras que los supera significativamente en 61 lenguajes de recursos abundantes a escasos de los 62 lenguajes evaluados en total.

English

We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0). Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.

Modelado Unificado de Visión y Lenguaje mediante Alineación en el Espacio Conceptual

Unified Vision-Language Modeling via Concept Space Alignment

Resumen

Support