VL-Rethinker : Incitation à l'auto-réflexion des modèles vision-langage par apprentissage par renforcement
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning
April 10, 2025
Auteurs: Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
cs.AI
Résumé
Récemment, les systèmes à réflexion lente comme GPT-o1 et DeepSeek-R1 ont démontré un grand potentiel dans la résolution de problèmes complexes grâce à une réflexion explicite. Ils surpassent significativement les meilleurs modèles à réflexion rapide, tels que GPT-4o, sur divers benchmarks en mathématiques et en sciences. Cependant, leurs capacités de raisonnement multimodal restent comparables à celles des modèles à réflexion rapide. Par exemple, les performances de GPT-o1 sur des benchmarks comme MathVista, MathVerse et MathVision sont similaires à celles des modèles à réflexion rapide. Dans cet article, nous visons à améliorer les capacités de réflexion lente des modèles vision-langage en utilisant l'apprentissage par renforcement (sans recourir à la distillation) pour faire progresser l'état de l'art. Tout d'abord, nous adaptons l'algorithme GRPO avec une nouvelle technique appelée Selective Sample Replay (SSR) pour résoudre le problème de la disparition des avantages. Bien que cette approche offre de solides performances, les modèles entraînés par RL qui en résultent présentent une réflexion ou une auto-vérification limitée. Pour encourager davantage la réflexion lente, nous introduisons le Forced Rethinking, qui ajoute un déclencheur de reconsidération textuelle à la fin des déploiements initiaux dans l'entraînement RL, imposant explicitement une étape de raisonnement par auto-réflexion. En combinant ces deux techniques, notre modèle, VL-Rethinker, améliore les scores de l'état de l'art sur MathVista, MathVerse et MathVision pour atteindre respectivement 80,3 %, 61,8 % et 43,9 %. VL-Rethinker atteint également le SoTA open-source sur des benchmarks multidisciplinaires tels que MMMU-Pro, EMMA et MEGA-Bench, réduisant ainsi l'écart avec GPT-o1.
English
Recently, slow-thinking systems like GPT-o1 and DeepSeek-R1 have demonstrated
great potential in solving challenging problems through explicit reflection.
They significantly outperform the best fast-thinking models, such as GPT-4o, on
various math and science benchmarks. However, their multimodal reasoning
capabilities remain on par with fast-thinking models. For instance, GPT-o1's
performance on benchmarks like MathVista, MathVerse, and MathVision is similar
to fast-thinking models. In this paper, we aim to enhance the slow-thinking
capabilities of vision-language models using reinforcement learning (without
relying on distillation) to advance the state of the art. First, we adapt the
GRPO algorithm with a novel technique called Selective Sample Replay (SSR) to
address the vanishing advantages problem. While this approach yields strong
performance, the resulting RL-trained models exhibit limited self-reflection or
self-verification. To further encourage slow-thinking, we introduce Forced
Rethinking, which appends a textual rethinking trigger to the end of initial
rollouts in RL training, explicitly enforcing a self-reflection reasoning step.
By combining these two techniques, our model, VL-Rethinker, advances
state-of-the-art scores on MathVista, MathVerse, and MathVision to achieve
80.3%, 61.8%, and 43.9% respectively. VL-Rethinker also achieves open-source
SoTA on multi-disciplinary benchmarks such as MMMU-Pro, EMMA, and MEGA-Bench,
narrowing the gap with GPT-o1.Summary
AI-Generated Summary