ChatPaper.aiChatPaper

GTR: Управляемое Усиление Мышления Предотвращает Коллапс Мысли при Обучении Агентов VLM на Основе RL

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

March 11, 2025
Авторы: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

Аннотация

Обучение с подкреплением с проверяемыми наградами за результат (RLVR) успешно масштабировало цепочку рассуждений (CoT) в больших языковых моделях (LLMs). Однако его эффективность в обучении агентов на основе визуально-языковых моделей (VLM) для целеориентированного рассуждения в визуальных средах изучена недостаточно. В данной работе эта проблема исследуется с помощью обширных экспериментов на сложных карточных играх, таких как "24 точки", и задачах из ALFWorld. Мы обнаружили, что когда награды основываются исключительно на результатах действий, RL не стимулирует CoT-рассуждения в VLMs, что приводит к явлению, которое мы назвали коллапсом мышления, характеризующимся быстрой потерей разнообразия в мыслях агента, нерелевантными и неполными рассуждениями, а также последующими недействительными действиями, что приводит к отрицательным наградам. Для противодействия коллапсу мышления мы подчеркиваем необходимость руководства процессом и предлагаем автоматический корректор, который оценивает и улучшает рассуждения агента на каждом шаге RL. Этот простой и масштабируемый фреймворк GTR (Guided Thought Reinforcement) обучает рассуждения и действия одновременно, не требуя плотной пошаговой разметки человеком. Наши эксперименты показывают, что GTR значительно повышает производительность и обобщаемость модели LLaVA-7b в различных визуальных средах, достигая в 3-5 раз более высоких показателей успешности задач по сравнению с современными моделями при значительно меньших размерах моделей.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent's thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent's reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.

Summary

AI-Generated Summary

PDF172March 13, 2025