ChatPaper.aiChatPaper

VL-Rethinker: Incentivizando la Autorreflexión en Modelos de Visión-Lenguaje con Aprendizaje por Refuerzo

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

April 10, 2025
Autores: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI

Resumen

Recientemente, sistemas de pensamiento lento como GPT-o1 y DeepSeek-R1 han demostrado un gran potencial para resolver problemas desafiantes mediante la reflexión explícita. Superan significativamente a los mejores modelos de pensamiento rápido, como GPT-4o, en varios benchmarks de matemáticas y ciencias. Sin embargo, sus capacidades de razonamiento multimodal siguen siendo similares a las de los modelos de pensamiento rápido. Por ejemplo, el rendimiento de GPT-o1 en benchmarks como MathVista, MathVerse y MathVision es comparable al de los modelos de pensamiento rápido. En este artículo, nuestro objetivo es mejorar las capacidades de pensamiento lento de los modelos de visión y lenguaje utilizando aprendizaje por refuerzo (sin depender de la destilación) para avanzar el estado del arte. Primero, adaptamos el algoritmo GRPO con una técnica novedosa llamada Reproducción Selectiva de Muestras (SSR, por sus siglas en inglés) para abordar el problema de las ventajas que desaparecen. Aunque este enfoque ofrece un rendimiento sólido, los modelos entrenados con RL resultantes muestran una reflexión o verificación propia limitada. Para fomentar aún más el pensamiento lento, introducimos el Replanteamiento Forzado, que añade un desencadenante textual de replanteamiento al final de las ejecuciones iniciales en el entrenamiento de RL, aplicando explícitamente un paso de razonamiento de autorreflexión. Al combinar estas dos técnicas, nuestro modelo, VL-Rethinker, avanza los puntajes de referencia en MathVista, MathVerse y MathVision, logrando un 80.3%, 61.8% y 43.9% respectivamente. VL-Rethinker también alcanza el estado del arte (SoTA) de código abierto en benchmarks multidisciplinarios como MMMU-Pro, EMMA y MEGA-Bench, reduciendo la brecha con GPT-o1.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.

Summary

AI-Generated Summary

PDF422April 15, 2025