Équilibrage des modalités See-Saw : Voir le gradient et ajuster l'équilibre vision-langue pour atténuer le biais de modalité dominante
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
Auteurs: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
Résumé
Les modèles vision-langage (VL) ont démontré de solides performances sur diverses tâches. Cependant, ces modèles s'appuient souvent sur une modalité spécifique pour leurs prédictions, ce qui entraîne un "biais de modalité dominante". Ce biais nuit considérablement aux performances, en particulier lorsqu'une modalité est altérée. Dans cette étude, nous analysons le comportement des modèles sous l'effet du biais de modalité dominante et montrons théoriquement que des gradients non alignés ou des différences dans les magnitudes des gradients empêchent une convergence équilibrée de la fonction de perte. Sur la base de ces observations, nous proposons un nouveau cadre, BalGrad, pour atténuer le biais de modalité dominante. Notre approche inclut une pondération inter-modale des gradients, ajustant le gradient de la divergence KL en fonction de la contribution de chaque modalité, ainsi qu'une projection inter-tâche des gradients pour aligner les directions des tâches de manière non conflictuelle. Les expériences sur les ensembles de données UPMC Food-101, Hateful Memes et MM-IMDb confirment que BalGrad réduit efficacement la surdépendance à des modalités spécifiques lors des prédictions.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.Summary
AI-Generated Summary