Denken oder nicht? Selektives Schließen durch Reinforcement Learning für Vision-Sprach-Modelle
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
Autoren: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
Zusammenfassung
Reinforcement Learning (RL) hat sich als effektive Nachtrainingsstrategie erwiesen, um das Schlussfolgern in Vision-Language-Modellen (VLMs) zu verbessern. Group Relative Policy Optimization (GRPO) ist eine kürzlich entwickelte Methode, die Modelle dazu anregt, vollständige Schlussfolgerungsspuren zu generieren, bevor sie eine Antwort geben, was zu einem erhöhten Token-Verbrauch und höheren Rechenkosten führt. Inspiriert vom menschlichen Denkprozess – bei dem Menschen das Schlussfolgern bei einfachen Fragen überspringen, aber sorgfältig nachdenken, wenn es nötig ist – untersuchen wir, wie VLMs dazu befähigt werden können, zunächst zu entscheiden, wann Schlussfolgern notwendig ist. Um dies zu realisieren, schlagen wir TON vor, eine zweistufige Trainingsstrategie: (i) eine überwachte Feinabstimmung (SFT) mit einer einfachen, aber effektiven ‚Thought Dropout‘-Operation, bei der Schlussfolgerungsspuren zufällig durch leere Gedanken ersetzt werden. Dies führt ein Think-or-Not-Format ein, das als Kaltstart für selektives Schlussfolgern dient; (ii) eine GRPO-Phase, in der das Modell frei erkunden kann, wann es nachdenken soll oder nicht, während es aufgabenbezogene Ergebnisbelohnungen maximiert. Experimentelle Ergebnisse zeigen, dass TON die Abschlusslänge im Vergleich zu herkömmlichem GRPO um bis zu 90 % reduzieren kann, ohne die Leistung zu beeinträchtigen oder sie sogar zu verbessern. Weitere Bewertungen über verschiedene Vision-Language-Aufgaben – die eine Bandbreite von Schlussfolgerungsschwierigkeiten sowohl unter 3B- als auch 7B-Modellen abdecken – zeigen durchgängig, dass das Modell im Laufe des Trainings zunehmend lernt, unnötige Schlussfolgerungsschritte zu überspringen. Diese Erkenntnisse beleuchten den Weg hin zu menschenähnlichen Denkmustern in Reinforcement-Learning-Ansätzen. Unser Code ist verfügbar unter https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.Summary
AI-Generated Summary