대규모 시각-언어 모델의 자기 개선 과정에서 매튜 효과 완화를 위한 헤드-테일 재균형 기법
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
October 30, 2025
저자: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
초록
자기 발전(self-improvement)은 대규모 시각-언어 모델(LVLM)의 추론 능력을 향상시키는 주류 패러다임으로 부상했으며, 이 과정에서 모델은 성공적인 트랙터리를 반복적으로 탐색하고 학습합니다. 그러나 본 연구에서는 이 과정에서 중요한 문제점을 확인했습니다: 모델은 단순한 질의(즉, 헤드 데이터)에 대해서는 고품질 트랙터리 생성을 잘 수행하지만, 더 복잡한 질의(즉, 테일 데이터)에 대해서는 어려움을 겪습니다. 이로 인해 불균형한 최적화가 발생하여 모델이 단순한 추론 기술을 우선시하게 되고, 더 복잡한 추론 과제 해결 능력은 저해됩니다. 이러한 불균형은 반복을 거듭할수록 점점 더 두드러지는데, 우리는 이러한 동적 현상을 "매튜 효과(Matthew effect)"로 명명하며, 이는 궁극적으로 모델의 추가 발전을 저해하고 성능 병목 현상을 초래한다고 봅니다. 이러한 문제를 해결하기 위해 우리는 탐색-학습 자기 발전 과정에서 헤드-테일 재균형을 달성하기 위해 두 가지 관점(분포 재구성 및 트랙터리 재샘플링)에서 네 가지 효율적인 전략을 제안합니다. 시각적 추론 작업에 대한 Qwen2-VL-7B-Instruct 및 InternVL2.5-4B 모델을 대상으로 한 광범위한 실험 결과, 우리의 방법이 시각적 추론 능력을 지속적으로 향상시키며, 일반적인 자기 발전 방법보다 평균 3.86점 높은 성능을 보여주었습니다.
English
Self-improvement has emerged as a mainstream paradigm for advancing the
reasoning capabilities of large vision-language models (LVLMs), where models
explore and learn from successful trajectories iteratively. However, we
identify a critical issue during this process: the model excels at generating
high-quality trajectories for simple queries (i.e., head data) but struggles
with more complex ones (i.e., tail data). This leads to an imbalanced
optimization that drives the model to prioritize simple reasoning skills, while
hindering its ability to tackle more complex reasoning tasks. Over iterations,
this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew
effect"--which ultimately hinders further model improvement and leads to
performance bottlenecks. To counteract this challenge, we introduce four
efficient strategies from two perspectives: distribution-reshaping and
trajectory-resampling, to achieve head-tail re-balancing during the
exploration-and-learning self-improvement process. Extensive experiments on
Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks
demonstrate that our methods consistently improve visual reasoning
capabilities, outperforming vanilla self-improvement by 3.86 points on average.