ChatPaper.aiChatPaper

MLLM's worden sterk beïnvloed door modaliteitsbias.

MLLMs are Deeply Affected by Modality Bias

May 24, 2025
Auteurs: Xu Zheng, Chenfei Liao, Yuqian Fu, Kaiyu Lei, Yuanhuiyi Lyu, Lutao Jiang, Bin Ren, Jialei Chen, Jiawen Wang, Chengxin Li, Linfeng Zhang, Danda Pani Paudel, Xuanjing Huang, Yu-Gang Jiang, Nicu Sebe, Dacheng Tao, Luc Van Gool, Xuming Hu
cs.AI

Samenvatting

Recente ontwikkelingen in Multimodale Grote Taalmodellen (MLLMs) hebben veelbelovende resultaten laten zien bij het integreren van diverse modaliteiten zoals tekst en afbeeldingen. MLLMs worden sterk beïnvloed door modaliteitsbias, waarbij ze vaak vertrouwen op taal terwijl andere modaliteiten zoals visuele input onderbenut blijven. Dit position paper betoogt dat MLLMs diepgaand worden beïnvloed door modaliteitsbias. Ten eerste diagnosticeren we de huidige staat van modaliteitsbias en belichten we de manifestaties ervan in verschillende taken. Ten tweede stellen we een systematische onderzoeksagenda voor die gerelateerd is aan modaliteitsbias in MLLMs. Ten derde identificeren we de belangrijkste factoren van modaliteitsbias in MLLMs en bieden we actiegerichte suggesties voor toekomstig onderzoek om deze te verminderen. Om deze bevindingen te onderbouwen, voeren we experimenten uit die de invloed van elke factor aantonen: 1. Data-eigenschappen: Taaldata is compact en abstract, terwijl visuele data redundant en complex is, wat een inherente onbalans creëert in de leer dynamiek. 2. Ongebalanceerde backbone-capaciteiten: De dominantie van vooraf getrainde taalmodel len in MLLMs leidt tot een overmatige afhankelijkheid van taal en verwaarlozing van visuele informatie. 3. Trainingsdoelstellingen: Huidige doelstellingen bevorderen vaak geen gebalanceerde kruismodale afstemming, wat resulteert in kortetermijnleren dat bevooroordeeld is naar taal. Deze bevindingen benadrukken de noodzaak van gebalanceerde trainingsstrategieën en modelarchitecturen om meerdere modaliteiten beter te integreren in MLLMs. We roepen op tot interdisciplinaire inspanningen om deze uitdagingen aan te pakken en innovatie in MLLM-onderzoek te stimuleren. Ons werk biedt een nieuw perspectief op modaliteitsbias in MLLMs en biedt inzichten voor het ontwikkelen van robuustere en generaliseerbaardere multimodale systemen, wat de vooruitgang richting Kunstmatige Algemene Intelligentie bevordert.
English
Recent advances in Multimodal Large Language Models (MLLMs) have shown promising results in integrating diverse modalities such as texts and images. MLLMs are heavily influenced by modality bias, often relying on language while under-utilizing other modalities like visual inputs. This position paper argues that MLLMs are deeply affected by modality bias. Firstly, we diagnose the current state of modality bias, highlighting its manifestations across various tasks. Secondly, we propose a systematic research road-map related to modality bias in MLLMs. Thirdly, we identify key factors of modality bias in MLLMs and offer actionable suggestions for future research to mitigate it. To substantiate these findings, we conduct experiments that demonstrate the influence of each factor: 1. Data Characteristics: Language data is compact and abstract, while visual data is redundant and complex, creating an inherent imbalance in learning dynamics. 2. Imbalanced Backbone Capabilities: The dominance of pretrained language models in MLLMs leads to overreliance on language and neglect of visual information. 3. Training Objectives: Current objectives often fail to promote balanced cross-modal alignment, resulting in shortcut learning biased toward language. These findings highlight the need for balanced training strategies and model architectures to better integrate multiple modalities in MLLMs. We call for interdisciplinary efforts to tackle these challenges and drive innovation in MLLM research. Our work provides a fresh perspective on modality bias in MLLMs and offers insights for developing more robust and generalizable multimodal systems-advancing progress toward Artificial General Intelligence.
PDF52May 28, 2025