MLLM(Multimodal Large Language Model)은 모달리티 편향에 깊은 영향을 받는다.
MLLMs are Deeply Affected by Modality Bias
May 24, 2025
저자: Xu Zheng, Chenfei Liao, Yuqian Fu, Kaiyu Lei, Yuanhuiyi Lyu, Lutao Jiang, Bin Ren, Jialei Chen, Jiawen Wang, Chengxin Li, Linfeng Zhang, Danda Pani Paudel, Xuanjing Huang, Yu-Gang Jiang, Nicu Sebe, Dacheng Tao, Luc Van Gool, Xuming Hu
cs.AI
초록
최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 텍스트와 이미지와 같은 다양한 모달리티를 통합하는 데 있어 유망한 결과를 보여주고 있습니다. MLLMs는 모달리티 편향에 크게 영향을 받으며, 종종 언어에 의존하면서 시각적 입력과 같은 다른 모달리티를 충분히 활용하지 못하는 경향이 있습니다. 이 포지션 페이퍼는 MLLMs가 모달리티 편향에 깊이 영향을 받는다고 주장합니다. 첫째, 우리는 다양한 작업에서 나타나는 모달리티 편향의 현재 상태를 진단하고 이를 강조합니다. 둘째, MLLMs의 모달리티 편향과 관련된 체계적인 연구 로드맵을 제안합니다. 셋째, MLLMs에서 모달리티 편향의 주요 요인을 식별하고 이를 완화하기 위한 미래 연구를 위한 실행 가능한 제안을 제공합니다. 이러한 발견을 뒷받침하기 위해, 우리는 각 요인의 영향을 보여주는 실험을 수행합니다: 1. 데이터 특성: 언어 데이터는 간결하고 추상적인 반면, 시각 데이터는 중복적이고 복잡하여 학습 역학에서 본질적인 불균형을 초래합니다. 2. 불균형한 백본 능력: MLLMs에서 사전 훈련된 언어 모델의 지배적 역할로 인해 언어에 대한 과도한 의존과 시각 정보의 소홀이 발생합니다. 3. 훈련 목표: 현재의 목표는 종종 균형 잡힌 교차 모달 정렬을 촉진하지 못하여 언어에 편향된 단축 학습을 초래합니다. 이러한 발견은 MLLMs에서 여러 모달리티를 더 잘 통합하기 위해 균형 잡힌 훈련 전략과 모델 아키텍처의 필요성을 강조합니다. 우리는 이러한 도전을 해결하고 MLLM 연구의 혁신을 이끌기 위한 학제 간 노력을 촉구합니다. 우리의 작업은 MLLMs의 모달리티 편향에 대한 새로운 관점을 제공하고, 더 강력하고 일반화 가능한 멀티모달 시스템을 개발하기 위한 통찰을 제공함으로써 인공 일반 지능(AGI)으로의 진전을 촉진합니다.
English
Recent advances in Multimodal Large Language Models (MLLMs) have shown
promising results in integrating diverse modalities such as texts and images.
MLLMs are heavily influenced by modality bias, often relying on language while
under-utilizing other modalities like visual inputs. This position paper argues
that MLLMs are deeply affected by modality bias. Firstly, we diagnose the
current state of modality bias, highlighting its manifestations across various
tasks. Secondly, we propose a systematic research road-map related to modality
bias in MLLMs. Thirdly, we identify key factors of modality bias in MLLMs and
offer actionable suggestions for future research to mitigate it. To
substantiate these findings, we conduct experiments that demonstrate the
influence of each factor: 1. Data Characteristics: Language data is compact and
abstract, while visual data is redundant and complex, creating an inherent
imbalance in learning dynamics. 2. Imbalanced Backbone Capabilities: The
dominance of pretrained language models in MLLMs leads to overreliance on
language and neglect of visual information. 3. Training Objectives: Current
objectives often fail to promote balanced cross-modal alignment, resulting in
shortcut learning biased toward language. These findings highlight the need for
balanced training strategies and model architectures to better integrate
multiple modalities in MLLMs. We call for interdisciplinary efforts to tackle
these challenges and drive innovation in MLLM research. Our work provides a
fresh perspective on modality bias in MLLMs and offers insights for developing
more robust and generalizable multimodal systems-advancing progress toward
Artificial General Intelligence.Summary
AI-Generated Summary