GTR: ガイド付き思考強化によるRLベースVLMエージェント訓練における思考崩壊の防止
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
March 11, 2025
著者: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
要旨
検証可能な結果報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)における連鎖的思考(CoT)推論のスケールアップに効果的である。しかし、視覚環境における目標指向の行動推論を行うための視覚言語モデル(VLM)エージェントの訓練における有効性は、まだ十分に確立されていない。本研究では、24点ゲームなどの複雑なカードゲームやALFWorldの具現化タスクを通じて、この問題を詳細に調査する。報酬が行動結果のみに基づいている場合、RLはVLMにおけるCoT推論を促進するのではなく、思考の多様性が急速に失われる「思考崩壊」と呼ばれる現象を引き起こすことがわかった。この現象は、状態に関連しない不完全な推論とそれに続く無効な行動を特徴とし、結果として負の報酬をもたらす。思考崩壊に対抗するため、プロセスガイダンスの必要性を強調し、各RLステップでエージェントの推論を評価・改善する自動修正器を提案する。このシンプルでスケーラブルなGTR(Guided Thought Reinforcement)フレームワークは、ステップごとの高密度な人間によるラベル付けを必要とせずに、推論と行動を同時に訓練する。実験結果は、GTRがLLaVA-7bモデルの性能と一般化能力を様々な視覚環境において大幅に向上させ、モデルサイズが著しく小さいにもかかわらず、SoTAモデルと比較して3~5倍高いタスク成功率を達成することを示している。
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively
scaled up chain-of-thought (CoT) reasoning in large language models (LLMs).
Yet, its efficacy in training vision-language model (VLM) agents for
goal-directed action reasoning in visual environments is less established. This
work investigates this problem through extensive experiments on complex card
games, such as 24 points, and embodied tasks from ALFWorld. We find that when
rewards are based solely on action outcomes, RL fails to incentivize CoT
reasoning in VLMs, instead leading to a phenomenon we termed thought collapse,
characterized by a rapid loss of diversity in the agent's thoughts,
state-irrelevant and incomplete reasoning, and subsequent invalid actions,
resulting in negative rewards. To counteract thought collapse, we highlight the
necessity of process guidance and propose an automated corrector that evaluates
and refines the agent's reasoning at each RL step. This simple and scalable GTR
(Guided Thought Reinforcement) framework trains reasoning and action
simultaneously without the need for dense, per-step human labeling. Our
experiments demonstrate that GTR significantly enhances the performance and
generalization of the LLaVA-7b model across various visual environments,
achieving 3-5 times higher task success rates compared to SoTA models with
notably smaller model sizes.Summary
AI-Generated Summary