Противодействие эффекту Матфея в самосовершенствовании LVLM за счет ребалансировки головы и хвоста
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
October 30, 2025
Авторы: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Аннотация
Самосовершенствование стало основной парадигмой для развития способностей к рассуждению у больших визуально-языковых моделей (LVLM), где модели итеративно исследуют и обучаются на успешных траекториях. Однако мы выявили ключевую проблему в этом процессе: модель преуспевает в генерации высококачественных траекторий для простых запросов (т.н. данные «головы» распределения), но испытывает трудности с более сложными запросами (данные «хвоста» распределения). Это приводит к несбалансированной оптимизации, которая заставляет модель отдавать приоритет простым навыкам рассуждения, одновременно препятствуя её способности решать более сложные задачи. С каждой итерацией этот дисбаланс становится всё более выраженным — динамику, которую мы называем «эффектом Матфея» — что в конечном итоге препятствует дальнейшему улучшению модели и приводит к появлению плато производительности. Для противодействия этой проблеме мы предлагаем четыре эффективные стратегии с двух точек зрения: переформатирование распределения и повторная выборка траекторий, чтобы достичь повторного балансирования «головы» и «хвоста» в процессе самосовершенствования, основанном на исследовании и обучении. Многочисленные эксперименты на моделях Qwen2-VL-7B-Instruct и InternVL2.5-4B в задачах визуального рассуждения демонстрируют, что наши методы стабильно улучшают визуальные reasoning-способности, превосходя базовое самосовершенствование в среднем на 3.86 балла.
English
Self-improvement has emerged as a mainstream paradigm for advancing the
reasoning capabilities of large vision-language models (LVLMs), where models
explore and learn from successful trajectories iteratively. However, we
identify a critical issue during this process: the model excels at generating
high-quality trajectories for simple queries (i.e., head data) but struggles
with more complex ones (i.e., tail data). This leads to an imbalanced
optimization that drives the model to prioritize simple reasoning skills, while
hindering its ability to tackle more complex reasoning tasks. Over iterations,
this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew
effect"--which ultimately hinders further model improvement and leads to
performance bottlenecks. To counteract this challenge, we introduce four
efficient strategies from two perspectives: distribution-reshaping and
trajectory-resampling, to achieve head-tail re-balancing during the
exploration-and-learning self-improvement process. Extensive experiments on
Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks
demonstrate that our methods consistently improve visual reasoning
capabilities, outperforming vanilla self-improvement by 3.86 points on average.