Bilanciamento Modale See-Saw: Osserva il Gradiente e Cuci l'Equilibrio Visione-Linguaggio per Mitigare il Pregiudizio della Modalità Dominante
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
Autori: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
Abstract
I modelli visione-linguaggio (VL) hanno dimostrato prestazioni solide in vari compiti. Tuttavia, questi modelli spesso si affidano a una specifica modalità per le previsioni, portando a un "bias della modalità dominante". Questo bias compromette significativamente le prestazioni, specialmente quando una modalità è compromessa. In questo studio, analizziamo il comportamento del modello in presenza di bias della modalità dominante e dimostriamo teoricamente che gradienti non allineati o differenze nelle magnitudini dei gradienti impediscono una convergenza bilanciata della funzione di perdita. Sulla base di questi risultati, proponiamo un nuovo framework, BalGrad, per mitigare il bias della modalità dominante. Il nostro approccio include il ri-ponderamento inter-modale dei gradienti, l'aggiustamento del gradiente della divergenza KL in base al contributo di ciascuna modalità, e la proiezione inter-task dei gradienti per allineare le direzioni dei compiti in modo non conflittuale. Esperimenti sui dataset UPMC Food-101, Hateful Memes e MM-IMDb confermano che BalGrad allevia efficacemente l'eccessivo affidamento su specifiche modalità durante la formulazione delle previsioni.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.