ChatPaper.aiChatPaper

GTR: 강화 학습 기반 VLM 에이전트 훈련에서 사고 붕괴를 방지하는 가이드된 사고 강화

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

March 11, 2025
저자: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

초록

검증 가능한 결과 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)에서의 사고 연쇄(CoT) 추론을 효과적으로 확장해 왔습니다. 그러나 시각 환경에서 목표 지향적 행동 추론을 위해 시각-언어 모델(VLM) 에이전트를 훈련시키는 데 있어서의 효용성은 아직 명확히 입증되지 않았습니다. 본 연구는 24점과 같은 복잡한 카드 게임 및 ALFWorld의 구체화된 작업을 통해 이 문제를 광범위한 실험으로 조사합니다. 우리는 보상이 단순히 행동 결과에 기반할 때, RL이 VLM에서 CoT 추론을 유도하는 데 실패하고, 대신 사고 붕괴(thought collapse)라는 현상을 초래한다는 것을 발견했습니다. 이는 에이전트의 사고 다양성의 급격한 감소, 상태와 무관하고 불완전한 추론, 그리고 이어지는 무효한 행동으로 특징지어지며, 결과적으로 부정적인 보상을 초래합니다. 사고 붕괴를 방지하기 위해, 우리는 과정 지도의 필요성을 강조하고 각 RL 단계에서 에이전트의 추론을 평가하고 개선하는 자동화된 수정기를 제안합니다. 이 간단하고 확장 가능한 GTR(Guided Thought Reinforcement) 프레임워크는 단계별로 밀집된 인간의 라벨링 없이도 추론과 행동을 동시에 훈련시킵니다. 우리의 실험은 GTR이 다양한 시각 환경에서 LLaVA-7b 모델의 성능과 일반화를 크게 향상시키며, 특히 더 작은 모델 크기로도 최신 기술(SoTA) 모델 대비 3-5배 높은 작업 성공률을 달성함을 보여줍니다.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent's thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent's reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.

Summary

AI-Generated Summary

PDF172March 13, 2025