텍스트 중심성을 넘어서: 올모달 대규모 언어 모델의 모달리티 선호도 이해
Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models
April 18, 2026
저자: Xinru Yan, Boxi Cao, Yaojie Lu, Hongyu Lin, Weixiang Zhou, Le Sun, Xianpei Han
cs.AI
초록
네이티브 올모달 대규모 언어 모델(OLLMs)은 파이프라인 아키텍처에서 통합된 표현 공간으로 전환되었습니다. 그러나 이러한 네이티브 통합은 중요하지만 제대로 연구되지 않은 현상인 모달리티 선호도를 야기합니다. 이러한 격차를 해소하기 위해, 우리는 먼저 새롭게 구축된 충돌 기반 벤치마크와 모달리티 선택 비율 지표를 사용하여 OLLMs의 모달리티 선호도를 체계적으로 정량화합니다. 10개의 대표적인 OLLMs에 대한 평가 결과, 기존 VLM들의 '텍스트 우위'와는 달리 대부분의 OLLMs에서 뚜렷한 시각적 선호도가 나타나는 주목할 만한 패러다임 전환이 관찰되었습니다. 근본적인 메커니즘을 추가로 이해하기 위해 계층별 프로빙을 수행한 결과, 이러한 모달리티 선호도는 정적이지 않으며 중간~후반 계층에서 점진적으로 발현된다는 것을 입증했습니다. 이러한 통찰을 바탕으로, 우리는 이러한 내부 신호를 활용하여 교차 모달리티 환각 현상을 진단하며, 과제 특화 데이터 없이도 세 가지 다운스트림 멀티모달 벤치마크에서 경쟁력 있는 성능을 달성했습니다. 본 연구는 보다 신뢰할 수 있는 OLLMs 구축을 위한 메커니즘적 이해와 실용적인 도구를 제공합니다. 코드 및 관련 자료는 https://github.com/icip-cas/OmniPreference 에서 공개되었습니다.
English
Native Omni-modal Large Language Models (OLLMs) have shifted from pipeline architectures to unified representation spaces. However, this native integration gives rise to a critical yet underexplored phenomenon: modality preference. To bridge this gap, we first systematically quantify modality preference of OLLMs using a newly-curated conflict-based benchmark and the modality selection rate metric. Our evaluation of ten representative OLLMs reveals a notable paradigm shift: unlike the ``text-dominance'' of traditional VLMs, most OLLMs exhibit a pronounced visual preference. To further understand the underlying mechanism, we conduct layer-wise probing and demonstrate that such modality preference is not static but emerges progressively in the mid-to-late layers. Building upon these insights, we leverage these internal signals to diagnose cross-modal hallucinations, achieving competitive performance across three downstream multi-modal benchmarks without task-specific data. Our work provides both a mechanistic understanding and a practical tool for building more trustworthy OLLMs. Our code and related resources are publicly available at: https://github.com/icip-cas/OmniPreference