GTR: Reforço de Pensamento Guiado Previne o Colapso de Pensamento no Treinamento de Agentes VLM Baseados em RL
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
March 11, 2025
Autores: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
Resumo
O aprendizado por reforço com recompensas de resultados verificáveis (RLVR) tem escalado efetivamente o raciocínio em cadeia de pensamento (CoT) em modelos de linguagem de grande escala (LLMs). No entanto, sua eficácia no treinamento de agentes de modelos visuais-linguísticos (VLMs) para raciocínio de ações direcionadas a objetivos em ambientes visuais é menos estabelecida. Este trabalho investiga esse problema por meio de extensos experimentos em jogos de cartas complexos, como o 24 pontos, e tarefas incorporadas do ALFWorld. Descobrimos que, quando as recompensas são baseadas apenas nos resultados das ações, o RL falha em incentivar o raciocínio CoT em VLMs, levando a um fenômeno que denominamos colapso do pensamento, caracterizado por uma rápida perda de diversidade nos pensamentos do agente, raciocínio irrelevante ao estado e incompleto, e subsequentes ações inválidas, resultando em recompensas negativas. Para combater o colapso do pensamento, destacamos a necessidade de orientação do processo e propomos um corretor automatizado que avalia e refina o raciocínio do agente a cada etapa do RL. Este framework simples e escalável de GTR (Reforço de Pensamento Guiado) treina raciocínio e ação simultaneamente sem a necessidade de rotulagem humana densa por etapa. Nossos experimentos demonstram que o GTR melhora significativamente o desempenho e a generalização do modelo LLaVA-7b em vários ambientes visuais, alcançando taxas de sucesso em tarefas 3 a 5 vezes maiores em comparação com modelos SoTA com tamanhos de modelo notavelmente menores.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively
scaled up chain-of-thought (CoT) reasoning in large language models (LLMs).
Yet, its efficacy in training vision-language model (VLM) agents for
goal-directed action reasoning in visual environments is less established. This
work investigates this problem through extensive experiments on complex card
games, such as 24 points, and embodied tasks from ALFWorld. We find that when
rewards are based solely on action outcomes, RL fails to incentivize CoT
reasoning in VLMs, instead leading to a phenomenon we termed thought collapse,
characterized by a rapid loss of diversity in the agent's thoughts,
state-irrelevant and incomplete reasoning, and subsequent invalid actions,
resulting in negative rewards. To counteract thought collapse, we highlight the
necessity of process guidance and propose an automated corrector that evaluates
and refines the agent's reasoning at each RL step. This simple and scalable GTR
(Guided Thought Reinforcement) framework trains reasoning and action
simultaneously without the need for dense, per-step human labeling. Our
experiments demonstrate that GTR significantly enhances the performance and
generalization of the LLaVA-7b model across various visual environments,
achieving 3-5 times higher task success rates compared to SoTA models with
notably smaller model sizes.Summary
AI-Generated Summary