ChatPaper.aiChatPaper

Het Tegengaan van het Matteüseffect bij Zelfverbetering van LVLM's door Hoofd-Staart Herbalancering

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

October 30, 2025
Auteurs: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Samenvatting

Zelfverbetering is naar voren gekomen als een belangrijk paradigma voor het verbeteren van de redeneervermogens van grote visueel-taalmodelen (LVLMs), waarbij modellen iteratief succesvolle trajecten verkennen en ervan leren. Wij identificeren echter een cruciaal probleem in dit proces: het model blinkt uit in het genereren van hoogwaardige trajecten voor eenvoudige vragen (d.w.z. hoofddata), maar worstelt met complexere vragen (d.w.z. staartdata). Dit leidt tot een onevenwichtige optimalisatie die het model ertoe aanzet eenvoudige redeneervaardigheden te prioriteren, terwijl het vermogen om complexere redeneertaken aan te pakken wordt belemmerd. Over iteraties heen wordt deze onbalans steeds duidelijker – een dynamiek die wij het "Mattheüs-effect" noemen – wat uiteindelijk verdere modelverbetering hindert en tot prestatieknelpunten leidt. Om deze uitdaging het hoofd te bieden, introduceren wij vier efficiënte strategieën vanuit twee perspectieven: distributiehervorming en trajectherbemonstering, om een herverdeling tussen hoofd- en staartdata te bereiken tijdens het verkennings- en leerproces van zelfverbetering. Uitgebreide experimenten met Qwen2-VL-7B-Instruct- en InternVL2.5-4B-modellen voor visuele redeneertaken tonen aan dat onze methoden de visuele redeneervermogen consistent verbeteren, waarbij ze de standaard zelfverbetering met gemiddeld 3,86 punten overtreffen.
English
Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.
PDF21December 2, 2025