Contrastare l'Effetto Matteo nell'Auto-Miglioramento dei LVLM attraverso il riequilibrio Testa-Coda

Abstract

L'automiglioramento è emerso come paradigma principale per potenziare le capacità di ragionamento dei grandi modelli visione-linguaggio (LVLM), dove i modelli esplorano e apprendono iterativamente da traiettorie di successo. Tuttavia, identifichiamo un problema critico durante questo processo: il modello eccelle nel generare traiettorie di alta qualità per query semplici (dati di testa) ma fatica con quelle più complesse (dati di coda). Ciò porta a un'ottimizzazione squilibrata che spinge il modello a privilegiare abilità di ragionamento semplici, ostacolando la sua capacità di affrontare compiti di ragionamento più complessi. Nel corso delle iterazioni, questo squilibrio diventa progressivamente più marcato – una dinamica che definiamo "effetto Matthew" – che alla fine impedisce ulteriori miglioramenti del modello e porta a colli di bottiglia prestazionali. Per contrastare questa sfida, introduciamo quattro strategie efficienti da due prospettive: rimodellamento della distribuzione e ricampionamento delle traiettorie, per raggiungere un riequilibrio testa-coda durante il processo di esplorazione-apprendimento dell'automiglioramento. Esperimenti estesi sui modelli Qwen2-VL-7B-Instruct e InternVL2.5-4B in compiti di ragionamento visivo dimostrano che i nostri metodi migliorano costantemente le capacità di ragionamento visivo, superando l'automiglioramento base di 3,86 punti in media.

English

Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.

Contrastare l'Effetto Matteo nell'Auto-Miglioramento dei LVLM attraverso il riequilibrio Testa-Coda

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

Abstract

Support