VL-Rethinker : Incitation à l'auto-réflexion des modèles vision-langage par apprentissage par renforcement

papers.abstract

Récemment, les systèmes à réflexion lente comme GPT-o1 et DeepSeek-R1 ont démontré un grand potentiel dans la résolution de problèmes complexes grâce à une réflexion explicite. Ils surpassent significativement les meilleurs modèles à réflexion rapide, tels que GPT-4o, sur divers benchmarks en mathématiques et en sciences. Cependant, leurs capacités de raisonnement multimodal restent comparables à celles des modèles à réflexion rapide. Par exemple, les performances de GPT-o1 sur des benchmarks comme MathVista, MathVerse et MathVision sont similaires à celles des modèles à réflexion rapide. Dans cet article, nous visons à améliorer les capacités de réflexion lente des modèles vision-langage en utilisant l'apprentissage par renforcement (sans recourir à la distillation) pour faire progresser l'état de l'art. Tout d'abord, nous adaptons l'algorithme GRPO avec une nouvelle technique appelée Selective Sample Replay (SSR) pour résoudre le problème de la disparition des avantages. Bien que cette approche offre de solides performances, les modèles entraînés par RL qui en résultent présentent une réflexion ou une auto-vérification limitée. Pour encourager davantage la réflexion lente, nous introduisons le Forced Rethinking, qui ajoute un déclencheur de reconsidération textuelle à la fin des déploiements initiaux dans l'entraînement RL, imposant explicitement une étape de raisonnement par auto-réflexion. En combinant ces deux techniques, notre modèle, VL-Rethinker, améliore les scores de l'état de l'art sur MathVista, MathVerse et MathVision pour atteindre respectivement 80,3 %, 61,8 % et 43,9 %. VL-Rethinker atteint également le SoTA open-source sur des benchmarks multidisciplinaires tels que MMMU-Pro, EMMA et MEGA-Bench, réduisant ainsi l'écart avec GPT-o1.

English

Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated great potential in solving challenging problems through explicit reflection. They significantly outperform the best fast-thinking models, such as GPT-4o, on various math and science benchmarks. However, their multimodal reasoning capabilities remain on par with fast-thinking models. For instance, GPT-o1's performance on benchmarks like MathVista, MathVerse, and MathVision is similar to fast-thinking models. In this paper, we aim to enhance the slow-thinking capabilities of vision-language models using reinforcement learning (without relying on distillation) to advance the state of the art. First, we adapt the GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to address the vanishing advantages problem. While this approach yields strong performance, the resulting RL-trained models exhibit limited self-reflection or self-verification. To further encourage slow-thinking, we introduce Forced Rethinking, which appends a textual rethinking trigger to the end of initial rollouts in RL training, explicitly enforcing a self-reflection reasoning step. By combining these two techniques, our model, VL-Rethinker, advances state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve 80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench, narrowing the gap with GPT-o1.

VL-Rethinker : Incitation à l'auto-réflexion des modèles vision-langage par apprentissage par renforcement

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

papers.abstract

Support