Баланс модальностей See-Saw: Управление градиентом и коррекция дисбаланса в зрительно-языковых моделях для смягчения доминирования одной модальности
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
Авторы: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
Аннотация
Модели, работающие с визуальными и текстовыми данными (vision-language, VL), демонстрируют высокую производительность в различных задачах. Однако эти модели часто полагаются на одну конкретную модальность для прогнозирования, что приводит к "предвзятости доминирующей модальности". Такая предвзятость значительно ухудшает производительность, особенно когда одна из модальностей нарушена. В данном исследовании мы анализируем поведение моделей при наличии предвзятости доминирующей модальности и теоретически показываем, что несогласованные градиенты или различия в их величинах препятствуют сбалансированной сходимости функции потерь. На основе этих выводов мы предлагаем новый фреймворк, BalGrad, для смягчения предвзятости доминирующей модальности. Наш подход включает перевзвешивание градиентов между модальностями, корректировку градиента дивергенции Кульбака-Лейблера на основе вклада каждой модальности и проекцию градиентов между задачами для согласования направлений задач без конфликтов. Эксперименты на наборах данных UPMC Food-101, Hateful Memes и MM-IMDb подтверждают, что BalGrad эффективно снижает чрезмерную зависимость от конкретных модальностей при прогнозировании.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.