Contrastare l'Effetto Matteo nell'Auto-Miglioramento dei LVLM attraverso il riequilibrio Testa-Coda
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
October 30, 2025
Autori: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Abstract
L'automiglioramento è emerso come paradigma principale per potenziare le capacità di ragionamento dei grandi modelli visione-linguaggio (LVLM), dove i modelli esplorano e apprendono iterativamente da traiettorie di successo. Tuttavia, identifichiamo un problema critico durante questo processo: il modello eccelle nel generare traiettorie di alta qualità per query semplici (dati di testa) ma fatica con quelle più complesse (dati di coda). Ciò porta a un'ottimizzazione squilibrata che spinge il modello a privilegiare abilità di ragionamento semplici, ostacolando la sua capacità di affrontare compiti di ragionamento più complessi. Nel corso delle iterazioni, questo squilibrio diventa progressivamente più marcato – una dinamica che definiamo "effetto Matthew" – che alla fine impedisce ulteriori miglioramenti del modello e porta a colli di bottiglia prestazionali. Per contrastare questa sfida, introduciamo quattro strategie efficienti da due prospettive: rimodellamento della distribuzione e ricampionamento delle traiettorie, per raggiungere un riequilibrio testa-coda durante il processo di esplorazione-apprendimento dell'automiglioramento. Esperimenti estesi sui modelli Qwen2-VL-7B-Instruct e InternVL2.5-4B in compiti di ragionamento visivo dimostrano che i nostri metodi migliorano costantemente le capacità di ragionamento visivo, superando l'automiglioramento base di 3,86 punti in media.
English
Self-improvement has emerged as a mainstream paradigm for advancing the
reasoning capabilities of large vision-language models (LVLMs), where models
explore and learn from successful trajectories iteratively. However, we
identify a critical issue during this process: the model excels at generating
high-quality trajectories for simple queries (i.e., head data) but struggles
with more complex ones (i.e., tail data). This leads to an imbalanced
optimization that drives the model to prioritize simple reasoning skills, while
hindering its ability to tackle more complex reasoning tasks. Over iterations,
this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew
effect"--which ultimately hinders further model improvement and leads to
performance bottlenecks. To counteract this challenge, we introduce four
efficient strategies from two perspectives: distribution-reshaping and
trajectory-resampling, to achieve head-tail re-balancing during the
exploration-and-learning self-improvement process. Extensive experiments on
Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks
demonstrate that our methods consistently improve visual reasoning
capabilities, outperforming vanilla self-improvement by 3.86 points on average.