ChatPaper.aiChatPaper

Pensare o non pensare? Ragionamento selettivo tramite apprendimento per rinforzo nei modelli visione-linguaggio

Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

May 22, 2025
Autori: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI

Abstract

Il Reinforcement Learning (RL) si è dimostrato una strategia efficace post-addestramento per migliorare il ragionamento nei modelli visione-linguaggio (VLMs). Il Group Relative Policy Optimization (GRPO) è un metodo recente e di rilievo che incoraggia i modelli a generare tracce di ragionamento complete prima di rispondere, portando a un aumento dell'uso di token e del costo computazionale. Ispirati dal processo di pensiero umano—dove le persone saltano il ragionamento per domande semplici ma riflettono attentamente quando necessario—esploriamo come consentire ai VLMs di decidere prima quando il ragionamento è necessario. Per realizzare ciò, proponiamo TON, una strategia di addestramento in due fasi: (i) una fase di fine-tuning supervisionato (SFT) con una semplice ma efficace operazione di 'thought dropout', in cui le tracce di ragionamento vengono sostituite casualmente con pensieri vuoti. Questo introduce un formato think-or-not che funge da avvio a freddo per il ragionamento selettivo; (ii) una fase GRPO che consente al modello di esplorare liberamente quando pensare o meno, massimizzando al contempo le ricompense basate sul compito. I risultati sperimentali mostrano che TON può ridurre la lunghezza di completamento fino al 90% rispetto al GRPO standard, senza sacrificare le prestazioni o addirittura migliorandole. Ulteriori valutazioni su una varietà di compiti visione-linguaggio—che coprono un range di difficoltà di ragionamento sia con modelli da 3B che da 7B—rivelano costantemente che il modello impara progressivamente a bypassare i passaggi di ragionamento non necessari man mano che l'addestramento procede. Questi risultati gettano luce sul percorso verso modelli di ragionamento simili a quelli umani negli approcci di reinforcement learning. Il nostro codice è disponibile all'indirizzo https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training strategy for enhancing reasoning in vision-language models (VLMs). Group Relative Policy Optimization (GRPO) is a recent prominent method that encourages models to generate complete reasoning traces before answering, leading to increased token usage and computational cost. Inspired by the human-like thinking process-where people skip reasoning for easy questions but think carefully when needed-we explore how to enable VLMs to first decide when reasoning is necessary. To realize this, we propose TON, a two-stage training strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective 'thought dropout' operation, where reasoning traces are randomly replaced with empty thoughts. This introduces a think-or-not format that serves as a cold start for selective reasoning; (ii) a GRPO stage that enables the model to freely explore when to think or not, while maximizing task-aware outcome rewards. Experimental results show that TON can reduce the completion length by up to 90% compared to vanilla GRPO, without sacrificing performance or even improving it. Further evaluations across diverse vision-language tasks-covering a range of reasoning difficulties under both 3B and 7B models-consistently reveal that the model progressively learns to bypass unnecessary reasoning steps as training advances. These findings shed light on the path toward human-like reasoning patterns in reinforcement learning approaches. Our code is available at https://github.com/kokolerk/TON.
PDF113May 23, 2025