ChatPaper.aiChatPaper

Équilibrage des modalités See-Saw : Voir le gradient et ajuster l'équilibre vision-langue pour atténuer le biais de modalité dominante

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

March 18, 2025
Auteurs: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI

Résumé

Les modèles vision-langage (VL) ont démontré de solides performances sur diverses tâches. Cependant, ces modèles s'appuient souvent sur une modalité spécifique pour leurs prédictions, ce qui entraîne un "biais de modalité dominante". Ce biais nuit considérablement aux performances, en particulier lorsqu'une modalité est altérée. Dans cette étude, nous analysons le comportement des modèles sous l'effet du biais de modalité dominante et montrons théoriquement que des gradients non alignés ou des différences dans les magnitudes des gradients empêchent une convergence équilibrée de la fonction de perte. Sur la base de ces observations, nous proposons un nouveau cadre, BalGrad, pour atténuer le biais de modalité dominante. Notre approche inclut une pondération inter-modale des gradients, ajustant le gradient de la divergence KL en fonction de la contribution de chaque modalité, ainsi qu'une projection inter-tâche des gradients pour aligner les directions des tâches de manière non conflictuelle. Les expériences sur les ensembles de données UPMC Food-101, Hateful Memes et MM-IMDb confirment que BalGrad réduit efficacement la surdépendance à des modalités spécifiques lors des prédictions.
English
Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.

Summary

AI-Generated Summary

PDF52March 21, 2025