Equilibrio de Modalidades Sube y Baja: Observa el Gradiente y Cose el Equilibrio Visión-Lenguaje para Mitigar el Sesgo de la Modalidad Dominante

Resumen

Los modelos de visión-lenguaje (VL) han demostrado un fuerte rendimiento en diversas tareas. Sin embargo, estos modelos suelen depender de una modalidad específica para realizar predicciones, lo que genera un "sesgo de modalidad dominante". Este sesgo afecta significativamente el rendimiento, especialmente cuando una modalidad está comprometida. En este estudio, analizamos el comportamiento del modelo bajo el sesgo de modalidad dominante y demostramos teóricamente que los gradientes no alineados o las diferencias en las magnitudes de los gradientes impiden una convergencia equilibrada de la pérdida. Basándonos en estos hallazgos, proponemos un marco novedoso, BalGrad, para mitigar el sesgo de modalidad dominante. Nuestro enfoque incluye la reponderación de gradientes intermodales, ajustando el gradiente de la divergencia KL según la contribución de cada modalidad, y la proyección de gradientes intertareas para alinear las direcciones de las tareas de manera no conflictiva. Los experimentos en los conjuntos de datos UPMC Food-101, Hateful Memes y MM-IMDb confirman que BalGrad alivia eficazmente la dependencia excesiva en modalidades específicas al realizar predicciones.

English

Vision-language (VL) models have demonstrated strong performance across various tasks. However, these models often rely on a specific modality for predictions, leading to "dominant modality bias.'' This bias significantly hurts performance, especially when one modality is impaired. In this study, we analyze model behavior under dominant modality bias and theoretically show that unaligned gradients or differences in gradient magnitudes prevent balanced convergence of the loss. Based on these findings, we propose a novel framework, BalGrad to mitigate dominant modality bias. Our approach includes inter-modality gradient reweighting, adjusting the gradient of KL divergence based on each modality's contribution, and inter-task gradient projection to align task directions in a non-conflicting manner. Experiments on UPMC Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively alleviates over-reliance on specific modalities when making predictions.

Equilibrio de Modalidades Sube y Baja: Observa el Gradiente y Cose el Equilibrio Visión-Lenguaje para Mitigar el Sesgo de la Modalidad Dominante

See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

Resumen

Support