Modelagem Unificada de Visão e Linguagem via Alinhamento no Espaço Conceitual

Resumo

Apresentamos o V-SONAR, um espaço de incorporação visão-linguagem estendido a partir do espaço de incorporação apenas para texto SONAR (Omnilingual Embeddings Team et al., 2026), que suporta 1500 idiomas em texto e 177 idiomas em fala. Para construir o V-SONAR, propomos um pipeline de alinhamento *post-hoc* que mapeia as representações de um codificador de visão existente para o espaço SONAR. Avaliamos minuciosamente o V-SONAR e demonstramos que suas incorporações alcançam desempenho competitivo na recuperação de texto para vídeo. Equipado com o decodificador de texto OMNISONAR, o V-SONAR supera ainda mais os modelos estado da arte em tarefas de descrição de vídeo, incluindo DREAM-1K (BLEU 23,9 vs. 19,6) e PE-VIDEO (BLEU 39,0 vs. 30,0). Aproveitando o V-SONAR, demonstramos primeiro que o *Large Concept Model* (LCM; LCM team et al. 2024), que opera no SONAR e foi treinado apenas com texto em inglês, pode realizar a compreensão de conceitos visuais únicos e múltiplos de maneira *zero-shot*. Finalmente, apresentamos o V-LCM, que estende o LCM com ajuste fino por instrução visão-linguagem. O V-LCM codifica entradas de visão e linguagem em uma sequência unificada de incorporações latentes por meio do V-SONAR e do SONAR, e é treinado com o mesmo objetivo de difusão latente para previsão da próxima incorporação usado no pré-treinamento apenas com texto do LCM. Experimentos em uma mistura de dados de ajuste fino por instrução multimodal e multilíngue em larga escala destacam o potencial do V-LCM: ele equipara-se aos modelos estado da arte visão-linguagem em tarefas de descrição de imagem/vídeo e resposta a perguntas, ao mesmo tempo que supera significativamente seu desempenho em 61 idiomas, de recursos ricos a escassos, do total de 62 idiomas testados.

English

We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0). Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.

Modelagem Unificada de Visão e Linguagem via Alinhamento no Espaço Conceitual

Unified Vision-Language Modeling via Concept Space Alignment

Resumo

Support