GTR : Renforcement Guidé de la Pensée pour Prévenir l'Effondrement de la Pensée dans l'Entraînement d'Agents VLM Basés sur l'Apprentissage par Renforcement
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
March 11, 2025
Auteurs: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
Résumé
L'apprentissage par renforcement avec récompenses vérifiables sur les résultats (RLVR) a efficacement permis de mettre à l'échelle le raisonnement en chaîne de pensées (CoT) dans les grands modèles de langage (LLMs). Cependant, son efficacité dans l'entraînement d'agents de modèles vision-langage (VLM) pour le raisonnement d'actions orientées vers un but dans des environnements visuels est moins établie. Ce travail explore ce problème à travers des expériences approfondies sur des jeux de cartes complexes, tels que le jeu des 24 points, et des tâches incarnées issues d'ALFWorld. Nous constatons que lorsque les récompenses sont basées uniquement sur les résultats des actions, le RL échoue à inciter le raisonnement CoT dans les VLMs, conduisant plutôt à un phénomène que nous avons nommé effondrement de la pensée, caractérisé par une perte rapide de diversité dans les pensées de l'agent, un raisonnement incomplet et non pertinent par rapport à l'état, et des actions invalides subséquentes, entraînant des récompenses négatives. Pour contrer cet effondrement de la pensée, nous soulignons la nécessité d'un guidage du processus et proposons un correcteur automatisé qui évalue et affine le raisonnement de l'agent à chaque étape du RL. Ce cadre simple et scalable, appelé GTR (Guided Thought Reinforcement), entraîne simultanément le raisonnement et l'action sans nécessiter un étiquetage humain dense et par étape. Nos expériences démontrent que GTR améliore significativement les performances et la généralisation du modèle LLaVA-7b dans divers environnements visuels, atteignant des taux de réussite des tâches 3 à 5 fois supérieurs par rapport aux modèles de l'état de l'art (SoTA) avec des tailles de modèles notablement plus petites.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively
scaled up chain-of-thought (CoT) reasoning in large language models (LLMs).
Yet, its efficacy in training vision-language model (VLM) agents for
goal-directed action reasoning in visual environments is less established. This
work investigates this problem through extensive experiments on complex card
games, such as 24 points, and embodied tasks from ALFWorld. We find that when
rewards are based solely on action outcomes, RL fails to incentivize CoT
reasoning in VLMs, instead leading to a phenomenon we termed thought collapse,
characterized by a rapid loss of diversity in the agent's thoughts,
state-irrelevant and incomplete reasoning, and subsequent invalid actions,
resulting in negative rewards. To counteract thought collapse, we highlight the
necessity of process guidance and propose an automated corrector that evaluates
and refines the agent's reasoning at each RL step. This simple and scalable GTR
(Guided Thought Reinforcement) framework trains reasoning and action
simultaneously without the need for dense, per-step human labeling. Our
experiments demonstrate that GTR significantly enhances the performance and
generalization of the LLaVA-7b model across various visual environments,
achieving 3-5 times higher task success rates compared to SoTA models with
notably smaller model sizes.Summary
AI-Generated Summary