생각할 것인가, 말 것인가? 시각-언어 모델을 위한 강화 학습 기반 선택적 추론
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
저자: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력을 향상시키는 효과적인 사후 학습 전략으로 입증되어 왔습니다. 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 모델이 답변하기 전에 완전한 추론 과정을 생성하도록 유도하는 최근의 주목받는 방법으로, 이는 토큰 사용량과 계산 비용을 증가시킵니다. 인간과 유사한 사고 과정—쉬운 질문에는 추론을 건너뛰지만 필요할 때는 신중히 생각하는—에서 영감을 받아, 우리는 VLMs가 먼저 추론이 필요한 시점을 결정할 수 있도록 하는 방법을 탐구합니다. 이를 실현하기 위해 우리는 TON이라는 두 단계의 학습 전략을 제안합니다: (i) 간단하지만 효과적인 '생각 드롭아웃(thought dropout)' 연산을 포함한 지도 미세 조정(Supervised Fine-Tuning, SFT) 단계로, 추론 과정이 무작위로 빈 생각으로 대체됩니다. 이는 선택적 추론을 위한 콜드 스타트로 작용하는 '생각할지 말지(think-or-not)' 형식을 도입합니다; (ii) 모델이 언제 생각할지 말지를 자유롭게 탐색하면서 작업 인식 결과 보상을 극대화하는 GRPO 단계입니다. 실험 결과는 TON이 기본 GRPO에 비해 완료 길이를 최대 90%까지 줄이면서도 성능을 희생하지 않거나 오히려 개선할 수 있음을 보여줍니다. 3B 및 7B 모델 하에서 다양한 시각-언어 작업에 걸친 추가 평가는 모델이 학습이 진행됨에 따라 불필요한 추론 단계를 점차 우회하는 것을 일관되게 보여줍니다. 이러한 발견들은 강화 학습 접근법에서 인간과 유사한 추론 패턴을 향한 길을 밝혀줍니다. 우리의 코드는 https://github.com/kokolerk/TON에서 확인할 수 있습니다.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.Summary
AI-Generated Summary