ChatPaper.aiChatPaper

GTR: Refuerzo Guiado del Pensamiento Previene el Colapso del Pensamiento en el Entrenamiento de Agentes VLM Basados en RL

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

March 11, 2025
Autores: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI

Resumen

El aprendizaje por refuerzo con recompensas verificables de resultados (RLVR) ha escalado efectivamente el razonamiento en cadena de pensamiento (CoT) en modelos de lenguaje grandes (LLMs). Sin embargo, su eficacia en el entrenamiento de agentes de modelos visión-lenguaje (VLM) para el razonamiento de acciones dirigidas a objetivos en entornos visuales está menos establecida. Este trabajo investiga este problema a través de experimentos extensos en juegos de cartas complejos, como el 24 puntos, y tareas corporizadas de ALFWorld. Descubrimos que cuando las recompensas se basan únicamente en los resultados de las acciones, el RL no logra incentivar el razonamiento CoT en los VLMs, lo que lleva a un fenómeno que denominamos colapso de pensamiento, caracterizado por una rápida pérdida de diversidad en los pensamientos del agente, razonamiento irrelevante al estado e incompleto, y acciones posteriores inválidas, resultando en recompensas negativas. Para contrarrestar el colapso de pensamiento, destacamos la necesidad de guía en el proceso y proponemos un corrector automático que evalúa y refina el razonamiento del agente en cada paso del RL. Este marco simple y escalable de GTR (Refuerzo de Pensamiento Guiado) entrena el razonamiento y la acción simultáneamente sin necesidad de etiquetado humano denso por paso. Nuestros experimentos demuestran que GTR mejora significativamente el rendimiento y la generalización del modelo LLaVA-7b en diversos entornos visuales, logrando tasas de éxito en tareas 3-5 veces mayores en comparación con modelos SoTA con tamaños de modelo notablemente más pequeños.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent's thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent's reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.

Summary

AI-Generated Summary

PDF172March 13, 2025