Bilanciamento Modale See-Saw: Osserva il Gradiente e Cuci l'Equilibrio Visione-Linguaggio per Mitigare il Pregiudizio della Modalità Dominante

Abstract

I modelli visione-linguaggio (VL) hanno dimostrato prestazioni solide in vari compiti. Tuttavia, questi modelli spesso si affidano a una specifica modalità per le previsioni, portando a un "bias della modalità dominante". Questo bias compromette significativamente le prestazioni, specialmente quando una modalità è compromessa. In questo studio, analizziamo il comportamento del modello in presenza di bias della modalità dominante e dimostriamo teoricamente che gradienti non allineati o differenze nelle magnitudini dei gradienti impediscono una convergenza bilanciata della funzione di perdita. Sulla base di questi risultati, proponiamo un nuovo framework, BalGrad, per mitigare il bias della modalità dominante. Il nostro approccio include il ri-ponderamento inter-modale dei gradienti, l'aggiustamento del gradiente della divergenza KL in base al contributo di ciascuna modalità, e la proiezione inter-task dei gradienti per allineare le direzioni dei compiti in modo non conflittuale. Esperimenti sui dataset UPMC Food-101, Hateful Memes e MM-IMDb confermano che BalGrad allevia efficacemente l'eccessivo affidamento su specifiche modalità durante la formulazione delle previsioni.

English

Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.

Bilanciamento Modale See-Saw: Osserva il Gradiente e Cuci l'Equilibrio Visione-Linguaggio per Mitigare il Pregiudizio della Modalità Dominante

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

Abstract

Support