Contrarrestando el Efecto Mateo en la Auto-mejora de los LVLM mediante Reequilibrio Cabeza-Col

Resumen

La auto-mejora ha surgido como un paradigma predominante para avanzar en las capacidades de razonamiento de los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés), donde los modelos exploran y aprenden de trayectorias exitosas de forma iterativa. Sin embargo, identificamos un problema crítico durante este proceso: el modelo sobresale en generar trayectorias de alta calidad para consultas simples (es decir, datos de cabeza) pero tiene dificultades con las más complejas (es decir, datos de cola). Esto conduce a una optimización desequilibrada que impulsa al modelo a priorizar habilidades de razonamiento simples, mientras obstaculiza su capacidad para abordar tareas de razonamiento más complejas. A lo largo de las iteraciones, este desequilibrio se vuelve cada vez más pronunciado —una dinámica que denominamos "efecto Mateo"— lo que finalmente impide una mejora adicional del modelo y conduce a cuellos de botella en el rendimiento. Para contrarrestar este desafío, introducimos cuatro estrategias eficientes desde dos perspectivas: remodelación de la distribución y remuestreo de trayectorias, para lograr un reequilibrio cabeza-cola durante el proceso de exploración y aprendizaje de la auto-mejora. Experimentos exhaustivos en los modelos Qwen2-VL-7B-Instruct e InternVL2.5-4B en tareas de razonamiento visual demuestran que nuestros métodos mejoran consistentemente las capacidades de razonamiento visual, superando a la auto-mejora básica por 3.86 puntos en promedio.

English

Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.

Contrarrestando el Efecto Mateo en la Auto-mejora de los LVLM mediante Reequilibrio Cabeza-Col

Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing

Resumen

Support