ChatPaper.aiChatPaper

일부 양상은 다른 양상보다 더 평등하다: MLLM에서의 다중 양상 통합 디코딩 및 아키텍처 설계

Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs

November 28, 2025
저자: Tianle Chen, Chaitanya Chakka, Arjun Reddy Akula, Xavier Thomas, Deepti Ghadiyaram
cs.AI

초록

멀티모달 대규모 언어 모델(MLLM)의 놀라운 발전에도 불구하고 근본적인 의문은 여전히 남아 있다: MLLM은 상충하는 모달리티에 대해 강건한가? 이를 엄격히 연구하기 위해, 모델의 특정 모달리티 의존성을 탐구하는 비디오와 작업으로 구성된 MMA-Bench를 도입한다. 블랙박스 및 화이트박스 해석 가능성 기법을 사용하여 오픈소스 및 클로즈드소스 MLLM 모두의 취약성을 비판적으로 분석한다. 우리는 현재 MLLM이 정렬되지 않은 오디오-비주얼 쌍과 단순한 오해의 소지가 있는 텍스트 하에서 어려움을 겪어 강건한 다중 모달 추론 능력이 부족함을 보여준다. 이러한 발견을 바탕으로, 모델이 특정 모달리티 단서를 언제 우선시하고, 활용하고, 무시해야 하는지를 가르치는 모달리티 정렬 튜닝 전략을 제안한다. 광범위한 실험과 분석을 통해 우리의 정렬 튜닝이 현저히 강력한 멀티모달 기반을 제공함을 보여준다. 이 연구는 본질적으로 신뢰할 수 있는 교차 모달 추론 능력을 가진 MLLM 개발을 위한 해석 도구와 명확한 경로를 동시에 제시한다. 코드와 데이터셋은 공개될 예정이다.
English
Despite remarkable advancements in Multimodal Large Language Models (MLLMs), a fundamental question remains: are MLLMs robust to contradicting modalities? To rigorously study this, we introduce MMA-Bench comprising videos and tasks that probe a model's reliance on specific modalities. Using black-box and white-box interpretability techniques, we provide a critical analysis of the brittleness of both open- and closed-sourced MLLMs. We show that current MLLMs struggle under misaligned audio-visual pairs and simple misleading text, thereby lacking robust multi-modal reasoning. Building on these findings, we propose a modality alignment tuning strategy to teach the model when to prioritize, leverage, or ignore specific modality cues. Through extensive experiments and analysis, we show that our alignment tuning yields demonstrably stronger multimodal grounding. This work provides both interpretability tools and a clear path toward developing MLLMs with intrinsically reliable cross-modal reasoning. Code and dataset will be publicly available.
PDF31December 6, 2025