ChatPaper.aiChatPaper

See-Saw Modaliteitsbalans: Zie Gradient, en Herstel Verstoorde Visie-Taalbalans om Dominante Modaliteitsbias te Verminderen

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

March 18, 2025
Auteurs: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI

Samenvatting

Vision-language (VL)-modellen hebben sterke prestaties getoond bij diverse taken. Deze modellen vertrouwen echter vaak op een specifieke modaliteit voor voorspellingen, wat leidt tot een "dominante modaliteitsbias". Deze bias heeft een aanzienlijke negatieve invloed op de prestaties, vooral wanneer één modaliteit verstoord is. In deze studie analyseren we het gedrag van modellen onder dominante modaliteitsbias en tonen we theoretisch aan dat niet-uitgelijnde gradienten of verschillen in gradientmagnitudes een gebalanceerde convergentie van het verlies verhinderen. Op basis van deze bevindingen stellen we een nieuw framework voor, BalGrad, om dominante modaliteitsbias te verminderen. Onze aanpak omvat herweging van inter-modaliteitsgradiënten, aanpassing van de gradient van de KL-divergentie op basis van de bijdrage van elke modaliteit, en inter-taakgradiëntprojectie om taakrichtingen op een niet-conflicterende manier uit te lijnen. Experimenten op de UPMC Food-101, Hateful Memes en MM-IMDb datasets bevestigen dat BalGrad effectief overmatige afhankelijkheid van specifieke modaliteiten bij het maken van voorspellingen vermindert.
English
Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.

Summary

AI-Generated Summary

PDF52March 21, 2025