¿Pensar o no pensar? Razonamiento selectivo mediante aprendizaje por refuerzo para modelos de visión y lenguaje
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
Autores: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
Resumen
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado ser una estrategia efectiva posterior al entrenamiento para mejorar el razonamiento en modelos de visión y lenguaje (VLMs). La Optimización de Política Relativa Grupal (GRPO, por sus siglas en inglés) es un método reciente destacado que fomenta que los modelos generen trazas de razonamiento completas antes de responder, lo que conlleva un mayor uso de tokens y un costo computacional más elevado. Inspirados por el proceso de pensamiento humano, donde las personas omiten el razonamiento en preguntas fáciles pero piensan con cuidado cuando es necesario, exploramos cómo permitir que los VLMs decidan primero cuándo es necesario razonar. Para lograr esto, proponemos TON, una estrategia de entrenamiento en dos etapas: (i) una etapa de ajuste fino supervisado (SFT, por sus siglas en inglés) con una operación simple pero efectiva de 'abandono de pensamiento', donde las trazas de razonamiento se reemplazan aleatoriamente con pensamientos vacíos. Esto introduce un formato de pensar-o-no que sirve como un arranque en frío para el razonamiento selectivo; (ii) una etapa GRPO que permite al modelo explorar libremente cuándo pensar o no, mientras maximiza las recompensas orientadas a la tarea. Los resultados experimentales muestran que TON puede reducir la longitud de finalización hasta en un 90% en comparación con GRPO estándar, sin sacrificar el rendimiento o incluso mejorándolo. Evaluaciones adicionales en diversas tareas de visión y lenguaje, que abarcan un rango de dificultades de razonamiento tanto en modelos de 3B como de 7B, revelan consistentemente que el modelo aprende progresivamente a omitir pasos de razonamiento innecesarios a medida que avanza el entrenamiento. Estos hallazgos arrojan luz sobre el camino hacia patrones de razonamiento similares a los humanos en enfoques de aprendizaje por refuerzo. Nuestro código está disponible en https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.Summary
AI-Generated Summary