ChatPaper.aiChatPaper

Contrer l'effet Matthieu dans l'auto-amélioration des LVLM grâce au rééquilibrage tête-queue

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

October 30, 2025
papers.authors: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

papers.abstract

L'auto-amélioration est devenue un paradigme dominant pour développer les capacités de raisonnement des grands modèles vision-langage (LVLM), où les modèles explorent et apprennent de manière itérative à partir de trajectoires réussies. Cependant, nous identifions un problème critique durant ce processus : le modèle excelle à générer des trajectoires de haute qualité pour les requêtes simples (données de tête) mais peine face aux requêtes plus complexes (données de queue). Cela entraîne une optimisation déséquilibrée qui pousse le modèle à privilégier les compétences de raisonnement simples, tout en entravant sa capacité à traiter des tâches de raisonnement plus complexes. Au fil des itérations, ce déséquilibre devient de plus en plus prononcé – une dynamique que nous nommons « l'effet Matthieu » – qui finit par entraver l'amélioration du modèle et conduit à des goulots d'étranglement de performance. Pour contrer ce défi, nous proposons quatre stratégies efficaces selon deux perspectives : le remodelage de la distribution et le rééchantillonnage des trajectoires, afin de rétablir l'équilibre entre tête et queue durant le processus d'exploration-apprentissage en auto-amélioration. Des expériences approfondies sur les modèles Qwen2-VL-7B-Instruct et InternVL2.5-4B, couvrant diverses tâches de raisonnement visuel, démontrent que nos méthodes améliorent constamment les capacités de raisonnement visuel, surpassant l'auto-amélioration standard de 3,86 points en moyenne.
English
Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.
PDF21December 2, 2025