ChatPaper.aiChatPaper

Bekämpfung des Matthäus-Effekts bei der Selbstverbesserung von LVLMs durch Neuausrichtung von Kopf- und Endsegmenten

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

October 30, 2025
papers.authors: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

papers.abstract

Selbstverbesserung hat sich als ein vorherrschendes Paradigma zur Steigerung der Reasoning-Fähigkeiten großer visuell-sprachlicher Modelle (LVLMs) etabliert, bei dem Modelle erfolgreiche Lösungspfade iterativ erkunden und von ihnen lernen. Wir identifizieren jedoch ein kritisches Problem in diesem Prozess: Das Modell erzeugt hochwertige Lösungspfade für einfache Anfragen (sog. Head-Daten) sehr gut, hat aber Schwierigkeiten mit komplexeren Anfragen (sog. Tail-Daten). Dies führt zu einer unausgewogenen Optimierung, die das Modell dazu veranlasst, einfache Reasoning-Fähigkeiten zu priorisieren, während seine Fähigkeit, komplexere Reasoning-Aufgaben zu bewältigen, beeinträchtigt wird. Über Iterationen hinweg verschärft sich dieses Ungleichgewicht zunehmend – eine Dynamik, die wir als "Matthäus-Effekt" bezeichnen – was letztendlich die weitere Modellverbesserung behindert und zu Leistungsengpässen führt. Um dieser Herausforderung zu begegnen, führen wir vier effiziente Strategien aus zwei Perspektiven ein: Verteilungsneugestaltung und Lösungspfad-Neubewertung, um während des erkundenden und lernenden Selbstverbesserungsprozesses eine Neuausrichtung zwischen Head- und Tail-Daten zu erreichen. Umfangreiche Experimente mit den Modellen Qwen2-VL-7B-Instruct und InternVL2.5-4B in visuellen Reasoning-Aufgaben zeigen, dass unsere Methoden die visuellen Reasoning-Fähigkeiten konsistent verbessern und die reine Selbstverbesserung im Durchschnitt um 3,86 Punkte übertreffen.
English
Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.
PDF21December 2, 2025