시소 모달리티 균형: 그래디언트를 확인하고, 시각-언어 균형을 조정하여 지배적 모달리티 편향 완화
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias
March 18, 2025
저자: JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim
cs.AI
초록
비전-언어(VL) 모델은 다양한 작업에서 강력한 성능을 보여주고 있습니다. 그러나 이러한 모델들은 종종 예측을 위해 특정 모달리티에 의존하는 경향이 있어 "지배적 모달리티 편향"을 초래합니다. 이러한 편향은 특히 한 모달리티가 손상되었을 때 성능에 큰 악영향을 미칩니다. 본 연구에서는 지배적 모달리티 편향 하에서의 모델 동작을 분석하고, 정렬되지 않은 그래디언트 또는 그래디언트 크기의 차이가 손실의 균형 잡힌 수렴을 방해한다는 것을 이론적으로 보여줍니다. 이러한 발견을 바탕으로, 우리는 지배적 모달리티 편향을 완화하기 위한 새로운 프레임워크인 BalGrad를 제안합니다. 우리의 접근 방식에는 모달리티 간 그래디언트 재가중치 조정, 각 모달리티의 기여도에 기반한 KL 발산의 그래디언트 조정, 그리고 작업 방향을 비충돌적으로 정렬하기 위한 작업 간 그래디언트 투영이 포함됩니다. UPMC Food-101, Hateful Memes, 그리고 MM-IMDb 데이터셋에 대한 실험을 통해 BalGrad가 예측 시 특정 모달리티에 대한 과도한 의존을 효과적으로 완화한다는 것을 확인하였습니다.
English
Vision-language (VL) models have demonstrated strong performance across
various tasks. However, these models often rely on a specific modality for
predictions, leading to "dominant modality bias.'' This bias significantly
hurts performance, especially when one modality is impaired. In this study, we
analyze model behavior under dominant modality bias and theoretically show that
unaligned gradients or differences in gradient magnitudes prevent balanced
convergence of the loss. Based on these findings, we propose a novel framework,
BalGrad to mitigate dominant modality bias. Our approach includes
inter-modality gradient reweighting, adjusting the gradient of KL divergence
based on each modality's contribution, and inter-task gradient projection to
align task directions in a non-conflicting manner. Experiments on UPMC
Food-101, Hateful Memes, and MM-IMDb datasets confirm that BalGrad effectively
alleviates over-reliance on specific modalities when making predictions.Summary
AI-Generated Summary