개념 공간 정렬을 통한 통합 시각-언어 모델링
Unified Vision-Language Modeling via Concept Space Alignment
March 1, 2026
저자: Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk
cs.AI
초록
본 논문에서는 텍스트 전용 임베딩 공간인 SONAR(Omnilingual Embeddings Team et al., 2026)를 확장하여 1500개의 텍스트 언어와 177개의 음성 언어를 지원하는 비전-언어 임베딩 공간인 V-SONAR을 소개합니다. V-SONAR 구축을 위해, 기존 비전 인코더의 표현을 SONAR 공간으로 매핑하는 사후 정렬 파이프라인을 제안합니다. V-SONAR을 철저히 평가한 결과, 해당 임베딩이 텍스트-비디오 검색 작업에서 경쟁력 있는 성능을 달성함을 확인했습니다. OMNISONAR 텍스트 디코더를 장착한 V-SONAR은 비디오 캡션 생성 작업(DREAM-1K: BLEU 23.9 대 19.6, PE-VIDEO: BLEU 39.0 대 30.0)에서 최첨단 비전-언어 모델을 추가로 능가합니다.
V-SONAR을 활용하여, SONAR 공간에서 운영되며 영어 텍스트만으로 학습된 대규모 개념 모델(LCM; LCM team et al. 2024)이 제로샷 방식으로 단일 및 다중 시각 개념 이해를 수행할 수 있음을 최초로 입증합니다. 마지막으로, 비전-언어 지시 튜닝을 통해 LCM을 확장한 V-LCM을 소개합니다. V-LCM은 V-SONAR과 SONAR을 통해 비전 및 언어 입력을 통합된 잠재 임베딩 시퀀스로 인코딩하며, LCM의 텍스트 전용 사전 학습과 동일한 잠재 확산 목표(다음 임베딩 예측)로 학습됩니다. 대규모 다언어 및 다중 모달 지시 튜닝 데이터 혼합물에 대한 실험은 V-LCM의 잠재력을 부각합니다: V-LCM은 이미지/비디오 캡션 생성 및 질의응답을 아우르는 작업에서 최첨단 비전-언어 모델과 성능을 맞섰으며, 테스트된 62개 언어 전체에서 61개의 풍부-에서 저-자원 언어에 걸쳐 그들을 크게 앞섰습니다.
English
We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0).
Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.