Pensar ou não? Raciocínio Seletivo via Aprendizado por Reforço para Modelos de Visão e Linguagem
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
Autores: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
Resumo
O Aprendizado por Reforço (RL) tem se mostrado uma estratégia eficaz de pós-treinamento para aprimorar o raciocínio em modelos de visão e linguagem (VLMs). O Group Relative Policy Optimization (GRPO) é um método recente e proeminente que incentiva os modelos a gerar traços completos de raciocínio antes de responder, resultando em maior uso de tokens e custo computacional. Inspirados pelo processo de pensamento humano—onde as pessoas pulam o raciocínio para perguntas fáceis, mas pensam cuidadosamente quando necessário—exploramos como permitir que os VLMs decidam primeiro quando o raciocínio é necessário. Para isso, propomos o TON, uma estratégia de treinamento em duas etapas: (i) uma etapa de ajuste fino supervisionado (SFT) com uma operação simples, porém eficaz, de 'abandono de pensamento', onde os traços de raciocínio são substituídos aleatoriamente por pensamentos vazios. Isso introduz um formato de pensar-ou-não que serve como um ponto de partida para o raciocínio seletivo; (ii) uma etapa de GRPO que permite ao modelo explorar livremente quando pensar ou não, enquanto maximiza as recompensas orientadas à tarefa. Resultados experimentais mostram que o TON pode reduzir o comprimento da conclusão em até 90% em comparação com o GRPO padrão, sem sacrificar o desempenho ou até mesmo melhorando-o. Avaliações adicionais em diversas tarefas de visão e linguagem—abrangendo uma variedade de dificuldades de raciocínio em modelos de 3B e 7B—revelam consistentemente que o modelo aprende progressivamente a ignorar etapas desnecessárias de raciocínio à medida que o treinamento avança. Essas descobertas lançam luz sobre o caminho para padrões de raciocínio semelhantes aos humanos em abordagens de aprendizado por reforço. Nosso código está disponível em https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.