Denken of niet? Selectief redeneren via reinforcement learning voor visie-taalmodellen
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
Auteurs: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
Samenvatting
Reinforcement Learning (RL) heeft zich bewezen als een effectieve post-trainingsstrategie om het redeneren in vision-language modellen (VLMs) te verbeteren. Group Relative Policy Optimization (GRPO) is een recente prominente methode die modellen aanmoedigt om volledige redeneersporen te genereren voordat ze antwoorden, wat leidt tot een hoger tokengebruik en hogere rekenkosten. Geïnspireerd door het menselijke denkproces – waarbij mensen redeneren overslaan voor eenvoudige vragen, maar zorgvuldig nadenken wanneer nodig – onderzoeken we hoe VLMs eerst kunnen beslissen wanneer redeneren noodzakelijk is. Om dit te realiseren, stellen we TON voor, een tweefasige trainingsstrategie: (i) een supervised fine-tuning (SFT) fase met een eenvoudige maar effectieve 'thought dropout'-operatie, waarbij redeneersporen willekeurig worden vervangen door lege gedachten. Dit introduceert een think-or-not formaat dat dient als een koude start voor selectief redeneren; (ii) een GRPO-fase die het model in staat stelt vrij te verkennen wanneer het wel of niet moet nadenken, terwijl het taakbewuste uitkomstenbeloningen maximaliseert. Experimentele resultaten tonen aan dat TON de voltooiingslengte met tot wel 90% kan verminderen in vergelijking met standaard GRPO, zonder prestaties op te offeren of zelfs te verbeteren. Verdere evaluaties over diverse vision-language taken – die een reeks redeneermoeilijkheden omvatten onder zowel 3B als 7B modellen – laten consistent zien dat het model geleidelijk leert om onnodige redeneerstappen over te slaan naarmate de training vordert. Deze bevindingen werpen licht op de weg naar mensachtige redeneerpatronen in reinforcement learning benaderingen. Onze code is beschikbaar op https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.