ChatPaper.aiChatPaper

Equilíbrio de Modalidade See-Saw: Veja o Gradiente e Costure o Equilíbrio Visão-Linguagem para Mitigar o Viés de Modalidade Dominante

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

March 18, 2025
Autores: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI

Resumo

Modelos de visão e linguagem (VL) têm demonstrado um forte desempenho em diversas tarefas. No entanto, esses modelos frequentemente dependem de uma modalidade específica para fazer previsões, levando ao "viés de modalidade dominante". Esse viés prejudica significativamente o desempenho, especialmente quando uma modalidade está comprometida. Neste estudo, analisamos o comportamento do modelo sob o viés de modalidade dominante e mostramos teoricamente que gradientes desalinhados ou diferenças nas magnitudes dos gradientes impedem a convergência equilibrada da perda. Com base nessas descobertas, propomos uma nova estrutura, o BalGrad, para mitigar o viés de modalidade dominante. Nossa abordagem inclui o reajuste de gradientes intermodais, ajustando o gradiente da divergência KL com base na contribuição de cada modalidade, e a projeção de gradientes intertarefas para alinhar as direções das tarefas de forma não conflitante. Experimentos nos conjuntos de dados UPMC Food-101, Hateful Memes e MM-IMDb confirmam que o BalGrad efetivamente reduz a dependência excessiva de modalidades específicas ao fazer previsões.
English
Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.

Summary

AI-Generated Summary

PDF52March 21, 2025