GTR: Rinforzo Guidato del Pensiero Previene il Collasso del Pensiero nell'Addestramento di Agenti VLM Basati su RL
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
March 11, 2025
Autori: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
Abstract
L'apprendimento per rinforzo con ricompense verificabili sugli esiti (RLVR) ha dimostrato di scalare efficacemente il ragionamento a catena di pensiero (CoT) nei grandi modelli linguistici (LLM). Tuttavia, la sua efficacia nell'addestrare agenti basati su modelli visione-linguaggio (VLM) per il ragionamento orientato all'azione in ambienti visivi è meno consolidata. Questo lavoro indaga tale problema attraverso esperimenti estesi su giochi di carte complessi, come il 24 punti, e su task embodied tratti da ALFWorld. Scopriamo che quando le ricompense si basano esclusivamente sugli esiti delle azioni, l'apprendimento per rinforzo non riesce a incentivare il ragionamento CoT nei VLM, portando invece a un fenomeno che abbiamo definito collasso del pensiero, caratterizzato da una rapida perdita di diversità nei pensieri dell'agente, ragionamenti irrilevanti rispetto allo stato e incompleti, e conseguenti azioni non valide, che risultano in ricompense negative. Per contrastare il collasso del pensiero, evidenziamo la necessità di una guida al processo e proponiamo un correttore automatico che valuta e affina il ragionamento dell'agente a ogni passo dell'apprendimento per rinforzo. Questo semplice e scalabile framework GTR (Guided Thought Reinforcement) addestra simultaneamente il ragionamento e l'azione senza la necessità di un'etichettatura umana densa e per ogni passo. I nostri esperimenti dimostrano che GTR migliora significativamente le prestazioni e la generalizzazione del modello LLaVA-7b in vari ambienti visivi, raggiungendo tassi di successo nei task da 3 a 5 volte superiori rispetto ai modelli state-of-the-art, pur avendo dimensioni notevolmente più ridotte.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively
scaled up chain-of-thought (CoT) reasoning in large language models (LLMs).
Yet, its efficacy in training vision-language model (VLM) agents for
goal-directed action reasoning in visual environments is less established. This
work investigates this problem through extensive experiments on complex card
games, such as 24 points, and embodied tasks from ALFWorld. We find that when
rewards are based solely on action outcomes, RL fails to incentivize CoT
reasoning in VLMs, instead leading to a phenomenon we termed thought collapse,
characterized by a rapid loss of diversity in the agent's thoughts,
state-irrelevant and incomplete reasoning, and subsequent invalid actions,
resulting in negative rewards. To counteract thought collapse, we highlight the
necessity of process guidance and propose an automated corrector that evaluates
and refines the agent's reasoning at each RL step. This simple and scalable GTR
(Guided Thought Reinforcement) framework trains reasoning and action
simultaneously without the need for dense, per-step human labeling. Our
experiments demonstrate that GTR significantly enhances the performance and
generalization of the LLaVA-7b model across various visual environments,
achieving 3-5 times higher task success rates compared to SoTA models with
notably smaller model sizes.