Modélisation unifiée vision-langage par alignement dans l'espace conceptuel
Unified Vision-Language Modeling via Concept Space Alignment
March 1, 2026
Auteurs: Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk
cs.AI
Résumé
Nous présentons V-SONAR, un espace d'incorporation vision-langage étendu à partir de l'espace d'incorporation textuel SONAR (Omnilingual Embeddings Team et al., 2026), qui prend en charge 1500 langues textuelles et 177 langues vocales. Pour construire V-SONAR, nous proposons un pipeline d'alignement post-hoc qui projette les représentations d'un encodeur visuel existant dans l'espace SONAR. Nous évaluons minutieusement V-SONAR et montrons que ses incorporations atteignent des performances compétitives en matière de recherche texte-vidéo. Équipé du décodeur textuel OMNISONAR, V-SONAR surpasse en outre les modèles état de l'art vision-langage sur les tâches de description vidéo, notamment sur DREAM-1K (BLEU 23,9 contre 19,6) et PE-VIDEO (BLEU 39,0 contre 30,0).
En tirant parti de V-SONAR, nous démontrons d'abord que le *Large Concept Model* (LCM ; LCM team et al. 2024), qui opère dans SONAR et n'a été entraîné qu'avec du texte anglais, peut réaliser une compréhension de concepts visuels uniques et multiples de manière *zero-shot*. Enfin, nous présentons V-LCM, qui étend le LCM par un réglage par instruction vision-langage. V-LCM encode les entrées visuelles et textuelles en une séquence unifiée d'incorporations latentes via V-SONAR et SONAR, et est entraîné avec le même objectif de diffusion latente pour la prédiction de l'incorporation suivante que lors de l'entraînement préalable uniquement textuel du LCM. Des expériences sur un mélange de données massif et multilingue de réglage par instruction multimodal mettent en lumière le potentiel de V-LCM : V-LCM égale les modèles vision-langage état de l'art sur des tâches couvrant la description d'images/vidéos et le question-réponse, tout en les surpassant significativement dans 61 langues, des plus riches aux plus pauvres en ressources, sur les 62 langues testées au total.
English
We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0).
Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.