考えるか、考えないか?視覚言語モデルのための強化学習による選択的推論
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
著者: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
要旨
強化学習(Reinforcement Learning, RL)は、視覚言語モデル(Vision-Language Models, VLMs)の推論能力を向上させるための効果的なポストトレーニング戦略として証明されています。Group Relative Policy Optimization(GRPO)は、モデルが回答する前に完全な推論トレースを生成することを促す最近の注目すべき手法であり、トークン使用量と計算コストの増加をもたらします。人間の思考プロセスに着想を得て、人々が簡単な質問では推論を省略し、必要な場合に慎重に考えることに基づき、VLMsがまず推論が必要かどうかを判断できるようにする方法を探ります。これを実現するため、我々はTONという2段階のトレーニング戦略を提案します:(i)単純でありながら効果的な「思考ドロップアウト」操作を伴う教師ありファインチューニング(Supervised Fine-Tuning, SFT)段階。ここでは、推論トレースがランダムに空の思考に置き換えられ、選択的推論のためのコールドスタートとして機能する「考えるか否か」形式を導入します。(ii)モデルが自由に考えるタイミングを探索しながら、タスク意識的な結果の報酬を最大化するGRPO段階。実験結果は、TONがバニラGRPOと比較して完了長を最大90%削減できることを示し、性能を犠牲にすることなく、むしろ向上させることも可能です。さらに、3Bおよび7Bモデル下での多様な視覚言語タスクにわたる評価では、トレーニングが進むにつれてモデルが不要な推論ステップを回避することを徐々に学習することが一貫して明らかになりました。これらの発見は、強化学習アプローチにおける人間らしい推論パターンへの道筋を照らします。我々のコードはhttps://github.com/kokolerk/TONで公開されています。
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.Summary
AI-Generated Summary