ChatPaper.aiChatPaper

Contra-ataque ao Efeito Mateus na Auto-Melhoria dos LVLMs por meio do Reequilíbrio Cabeça-Cauda

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

October 30, 2025
Autores: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Resumo

A autoaperfeiçoamento emergiu como um paradigma dominante para avançar as capacidades de raciocínio de grandes modelos visão-linguagem (LVLMs), nos quais os modelos exploram e aprendem a partir de trajetórias bem-sucedidas de forma iterativa. No entanto, identificamos um problema crítico durante este processo: o modelo se destaca na geração de trajetórias de alta qualidade para consultas simples (ou seja, dados da "cabeça" da distribuição), mas tem dificuldades com consultas mais complexas (ou seja, dados da "cauda" da distribuição). Isso leva a uma otimização desequilibrada que leva o modelo a priorizar habilidades de raciocínio simples, ao mesmo tempo que prejudica sua capacidade de lidar com tarefas de raciocínio mais complexas. Ao longo das iterações, esse desequilíbrio torna-se cada vez mais pronunciado – uma dinâmica que denominamos de "efeito Mateus" – o que, em última análise, impede a melhoria adicional do modelo e leva a gargalos de desempenho. Para combater este desafio, introduzimos quatro estratégias eficientes a partir de duas perspectivas: remodelagem da distribuição e reamostragem de trajetórias, para alcançar um reequilíbrio entre cabeça e cauda durante o processo de autoaperfeiçoamento por exploração e aprendizagem. Experimentos extensos com os modelos Qwen2-VL-7B-Instruct e InternVL2.5-4B em tarefas de raciocínio visual demonstram que os nossos métodos melhoram consistentemente as capacidades de raciocínio visual, superando o autoaperfeiçoamento básico em 3,86 pontos em média.
English
Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.
PDF21December 2, 2025