大規模視覚言語モデルの自己改善におけるマシュー効果の抑制 ~ヘッド・テイル再調整によるアプローチ~
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
October 30, 2025
著者: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
要旨
自己改善は、大規模視覚言語モデル(LVLM)の推論能力を向上させる主流のパラダイムとして登場し、モデルが成功した軌跡を反復的に探索・学習する手法である。しかし、このプロセスにおいて重大な問題を特定した:モデルは単純なクエリ(ヘッドデータ)に対する高品質な軌跡生成には優れるが、複雑なクエリ(テールデータ)では困難を抱える。これにより、モデルが単純な推論スキルを優先し、より複雑な推論課題への対応能力が阻害される不均衡な最適化が生じる。反復を重ねるにつれ、この不均衡は顕著化し——我々が「マタイ効果」と呼ぶ動態——最終的にモデル改善を妨げ性能ボトルネックを招く。この課題に対処するため、探索学習型自己改善プロセスにおける頭部-尾部の再均衡化を実現すべく、分布再形成と軌道再抽出の二視点から四つの効率的戦略を導入する。視覚推論タスクにおけるQwen2-VL-7B-InstructとInternVL2.5-4Bモデルでの大規模実験により、本手法が視覚推論能力を一貫して向上させ、従来の自己改善手法を平均3.86ポイント上回ることを実証した。
English
Self-improvement has emerged as a mainstream paradigm for advancing the
reasoning capabilities of large vision-language models (LVLMs), where models
explore and learn from successful trajectories iteratively. However, we
identify a critical issue during this process: the model excels at generating
high-quality trajectories for simple queries (i.e., head data) but struggles
with more complex ones (i.e., tail data). This leads to an imbalanced
optimization that drives the model to prioritize simple reasoning skills, while
hindering its ability to tackle more complex reasoning tasks. Over iterations,
this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew
effect"--which ultimately hinders further model improvement and leads to
performance bottlenecks. To counteract this challenge, we introduce four
efficient strategies from two perspectives: distribution-reshaping and
trajectory-resampling, to achieve head-tail re-balancing during the
exploration-and-learning self-improvement process. Extensive experiments on
Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks
demonstrate that our methods consistently improve visual reasoning
capabilities, outperforming vanilla self-improvement by 3.86 points on average.