Equilibrio de Modalidades Sube y Baja: Observa el Gradiente y Cose el Equilibrio Visión-Lenguaje para Mitigar el Sesgo de la Modalidad Dominante
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
Autores: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
Resumen
Los modelos de visión-lenguaje (VL) han demostrado un fuerte rendimiento en diversas tareas. Sin embargo, estos modelos suelen depender de una modalidad específica para realizar predicciones, lo que genera un "sesgo de modalidad dominante". Este sesgo afecta significativamente el rendimiento, especialmente cuando una modalidad está comprometida. En este estudio, analizamos el comportamiento del modelo bajo el sesgo de modalidad dominante y demostramos teóricamente que los gradientes no alineados o las diferencias en las magnitudes de los gradientes impiden una convergencia equilibrada de la pérdida. Basándonos en estos hallazgos, proponemos un marco novedoso, BalGrad, para mitigar el sesgo de modalidad dominante. Nuestro enfoque incluye la reponderación de gradientes intermodales, ajustando el gradiente de la divergencia KL según la contribución de cada modalidad, y la proyección de gradientes intertareas para alinear las direcciones de las tareas de manera no conflictiva. Los experimentos en los conjuntos de datos UPMC Food-101, Hateful Memes y MM-IMDb confirman que BalGrad alivia eficazmente la dependencia excesiva en modalidades específicas al realizar predicciones.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.Summary
AI-Generated Summary