GTR: Geleide Denkversterking Voorkomt Denkinstorting bij RL-gebaseerde VLM Agent Training
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
March 11, 2025
Auteurs: Tong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye
cs.AI
Samenvatting
Reinforcement learning met verifieerbare uitkomstbeloningen (RLVR) heeft effectief
de keten-van-gedachten (CoT) redenering in grote taalmodelen (LLMs) opgeschaald.
Echter, de effectiviteit ervan bij het trainen van visie-taalmodel (VLM) agents voor
doelgericht actieredeneren in visuele omgevingen is minder goed vastgesteld. Dit
onderzoek behandelt dit probleem door middel van uitgebreide experimenten met complexe kaartspellen,
zoals 24 punten, en belichaamde taken uit ALFWorld. We ontdekken dat wanneer
beloningen uitsluitend gebaseerd zijn op actie-uitkomsten, RL er niet in slaagt om CoT
redenering in VLMs te stimuleren, wat leidt tot een fenomeen dat we gedachte-inzakking noemen,
gekenmerkt door een snel verlies van diversiteit in de gedachten van de agent,
staat-irrelevante en onvolledige redenering, en daaropvolgende ongeldige acties,
resulterend in negatieve beloningen. Om gedachte-inzakking tegen te gaan, benadrukken we de
noodzaak van procesbegeleiding en stellen we een geautomatiseerde corrector voor die de
redenering van de agent bij elke RL-stap evalueert en verfijnt. Dit eenvoudige en schaalbare GTR
(Guided Thought Reinforcement) framework traint redenering en actie
gelijktijdig zonder de behoefte aan dichte, per-stap menselijke labeling. Onze
experimenten tonen aan dat GTR de prestaties en generalisatie van het LLaVA-7b model
aanzienlijk verbetert in diverse visuele omgevingen, met 3-5 keer hogere
taaksuccespercentages vergeleken met state-of-the-art modellen met aanzienlijk kleinere modelgroottes.
English
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively
scaled up chain-of-thought (CoT) reasoning in large language models (LLMs).
Yet, its efficacy in training vision-language model (VLM) agents for
goal-directed action reasoning in visual environments is less established. This
work investigates this problem through extensive experiments on complex card
games, such as 24 points, and embodied tasks from ALFWorld. We find that when
rewards are based solely on action outcomes, RL fails to incentivize CoT
reasoning in VLMs, instead leading to a phenomenon we termed thought collapse,
characterized by a rapid loss of diversity in the agent's thoughts,
state-irrelevant and incomplete reasoning, and subsequent invalid actions,
resulting in negative rewards. To counteract thought collapse, we highlight the
necessity of process guidance and propose an automated corrector that evaluates
and refines the agent's reasoning at each RL step. This simple and scalable GTR
(Guided Thought Reinforcement) framework trains reasoning and action
simultaneously without the need for dense, per-step human labeling. Our
experiments demonstrate that GTR significantly enhances the performance and
generalization of the LLaVA-7b model across various visual environments,
achieving 3-5 times higher task success rates compared to SoTA models with
notably smaller model sizes.Summary
AI-Generated Summary