Думать или нет? Избирательное рассуждение с использованием обучения с подкреплением для моделей, работающих с визуальными и языковыми данными
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
May 22, 2025
Авторы: Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou
cs.AI
Аннотация
Обучение с подкреплением (Reinforcement Learning, RL) доказало свою эффективность как стратегия пост-обучения для улучшения способности к рассуждению в моделях, работающих с визуальными и языковыми данными (Vision-Language Models, VLMs). Метод Group Relative Policy Optimization (GRPO), недавно получивший широкое внимание, побуждает модели генерировать полные цепочки рассуждений перед ответом, что приводит к увеличению использования токенов и вычислительных затрат. Вдохновленные человеческим процессом мышления, где люди пропускают рассуждения для простых вопросов, но тщательно обдумывают сложные, мы исследуем, как научить VLMs сначала определять, когда рассуждения необходимы. Для реализации этой идеи мы предлагаем TON — двухэтапную стратегию обучения: (i) этап контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) с простой, но эффективной операцией «выборочного отбрасывания рассуждений» (thought dropout), где цепочки рассуждений случайным образом заменяются на пустые мысли. Это вводит формат «думать или не думать», который служит отправной точкой для избирательного рассуждения; (ii) этап GRPO, который позволяет модели свободно исследовать, когда думать, а когда нет, при этом максимизируя вознаграждения, связанные с выполнением задачи. Экспериментальные результаты показывают, что TON может сократить длину ответа до 90% по сравнению с базовым GRPO, не жертвуя производительностью и даже улучшая её. Дополнительные оценки на различных задачах, связанных с визуальными и языковыми данными — охватывающих широкий спектр сложности рассуждений для моделей с 3B и 7B параметрами — последовательно демонстрируют, что модель постепенно учится пропускать ненужные шаги рассуждений по мере прогресса обучения. Эти результаты проливают свет на путь к созданию более человеко-подобных паттернов рассуждений в подходах, основанных на обучении с подкреплением. Наш код доступен по адресу https://github.com/kokolerk/TON.
English
Reinforcement Learning (RL) has proven to be an effective post-training
strategy for enhancing reasoning in vision-language models (VLMs). Group
Relative Policy Optimization (GRPO) is a recent prominent method that
encourages models to generate complete reasoning traces before answering,
leading to increased token usage and computational cost. Inspired by the
human-like thinking process-where people skip reasoning for easy questions but
think carefully when needed-we explore how to enable VLMs to first decide when
reasoning is necessary. To realize this, we propose TON, a two-stage training
strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective
'thought dropout' operation, where reasoning traces are randomly replaced with
empty thoughts. This introduces a think-or-not format that serves as a cold
start for selective reasoning; (ii) a GRPO stage that enables the model to
freely explore when to think or not, while maximizing task-aware outcome
rewards. Experimental results show that TON can reduce the completion length by
up to 90% compared to vanilla GRPO, without sacrificing performance or even
improving it. Further evaluations across diverse vision-language tasks-covering
a range of reasoning difficulties under both 3B and 7B models-consistently
reveal that the model progressively learns to bypass unnecessary reasoning
steps as training advances. These findings shed light on the path toward
human-like reasoning patterns in reinforcement learning approaches. Our code is
available at https://github.com/kokolerk/TON.Summary
AI-Generated Summary