Equilíbrio de Modalidade See-Saw: Veja o Gradiente e Costure o Equilíbrio Visão-Linguagem para Mitigar o Viés de Modalidade Dominante
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
Autores: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
Resumo
Modelos de visão e linguagem (VL) têm demonstrado um forte desempenho em diversas tarefas. No entanto, esses modelos frequentemente dependem de uma modalidade específica para fazer previsões, levando ao "viés de modalidade dominante". Esse viés prejudica significativamente o desempenho, especialmente quando uma modalidade está comprometida. Neste estudo, analisamos o comportamento do modelo sob o viés de modalidade dominante e mostramos teoricamente que gradientes desalinhados ou diferenças nas magnitudes dos gradientes impedem a convergência equilibrada da perda. Com base nessas descobertas, propomos uma nova estrutura, o BalGrad, para mitigar o viés de modalidade dominante. Nossa abordagem inclui o reajuste de gradientes intermodais, ajustando o gradiente da divergência KL com base na contribuição de cada modalidade, e a projeção de gradientes intertarefas para alinhar as direções das tarefas de forma não conflitante. Experimentos nos conjuntos de dados UPMC Food-101, Hateful Memes e MM-IMDb confirmam que o BalGrad efetivamente reduz a dependência excessiva de modalidades específicas ao fazer previsões.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.Summary
AI-Generated Summary