Penser ou non ? Raisonnement sélectif via apprentissage par renforcement pour les modèles vision-langage
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
Auteurs: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
Résumé
L'apprentissage par renforcement (Reinforcement Learning, RL) s'est avéré être une stratégie efficace en post-formation pour améliorer le raisonnement dans les modèles vision-langage (Vision-Language Models, VLMs). L'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) est une méthode récente et prometteuse qui encourage les modèles à générer des traces de raisonnement complètes avant de répondre, ce qui entraîne une augmentation de l'utilisation de tokens et des coûts de calcul. Inspirés par le processus de pensée humain—où les personnes sautent le raisonnement pour des questions faciles mais réfléchissent attentivement lorsque nécessaire—nous explorons comment permettre aux VLMs de décider d'abord quand le raisonnement est nécessaire. Pour réaliser cela, nous proposons TON, une stratégie de formation en deux étapes : (i) une étape de fine-tuning supervisé (Supervised Fine-Tuning, SFT) avec une opération simple mais efficace de 'thought dropout', où les traces de raisonnement sont remplacées aléatoirement par des pensées vides. Cela introduit un format 'penser ou non' qui sert de point de départ pour un raisonnement sélectif ; (ii) une étape GRPO qui permet au modèle d'explorer librement quand penser ou non, tout en maximisant les récompenses liées à la tâche. Les résultats expérimentaux montrent que TON peut réduire la longueur de complétion jusqu'à 90 % par rapport à GRPO standard, sans sacrifier les performances ou même en les améliorant. Des évaluations supplémentaires sur diverses tâches vision-langage—couvrant une gamme de difficultés de raisonnement avec des modèles de 3B et 7B—révèlent de manière cohérente que le modèle apprend progressivement à contourner les étapes de raisonnement inutiles au fur et à mesure de la formation. Ces résultats éclairent la voie vers des modèles de raisonnement plus proches de ceux des humains dans les approches d'apprentissage par renforcement. Notre code est disponible à l'adresse https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.Summary
AI-Generated Summary