Migliorare l'Addestramento dei Modelli Visione-Linguaggio con l'Apprendimento per Rinforzo in Mondi Sintetici per il Successo nel Mondo Reale
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success
August 6, 2025
Autori: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI
Abstract
Gli agenti multimodali interattivi devono convertire osservazioni visive grezze in sequenze coerenti di azioni condizionate dal linguaggio - una capacità che gli attuali modelli visione-linguaggio (VLMs) ancora non possiedono. I precedenti sforzi di apprendimento per rinforzo (RL) potrebbero, in linea di principio, dotare i VLMs di tali abilità, ma raramente hanno testato se i comportamenti appresi si generalizzano oltre i loro simulatori di addestramento, e dipendono sia da una regolazione iperparametrica fragile che da ambienti a ricompensa densa con bassa variabilità di stato. Introduciamo Vision-Language Decoupled Actor-Critic (VL-DAC), un algoritmo RL leggero e privo di iperparametri. VL-DAC applica aggiornamenti PPO ai token di azione mentre apprende il valore solo a livello di passo dell'ambiente: una disposizione, a nostra conoscenza, non precedentemente esplorata per grandi VLMs o LLMs. Questo semplice disaccoppiamento rimuove termini di ponderazione instabili e produce una convergenza più rapida e affidabile. Addestrare un singolo VLM con VL-DAC in un simulatore economico alla volta (MiniWorld, Gym-Cards, ALFWorld o WebShop) produce già politiche che si generalizzano ampiamente: +50\% relativo su BALROG (controllo agentico centrato sul gioco), +5\% relativo sulla parte più difficile di VSI-Bench (pianificazione spaziale) e +2\% su VisualWebBench (navigazione web), tutto senza degradare l'accuratezza generale della comprensione delle immagini. Questi risultati forniscono la prima evidenza che un semplice algoritmo RL può addestrare VLMs interamente in mondi sintetici economici, fornendo al contempo guadagni misurabili su benchmark agentici, di ragionamento spaziale e di navigazione web con immagini reali.
English
Interactive multimodal agents must convert raw visual observations into
coherent sequences of language-conditioned actions -- a capability that current
vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL)
efforts could, in principle, endow VLMs with such skills, but they have seldom
tested whether the learned behaviours generalize beyond their training
simulators, and they depend either on brittle hyperparameter tuning or on
dense-reward environments with low state variability. We introduce
Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight,
hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens
while learning value only at the environment-step level: an arrangement, to our
knowledge, not previously explored for large VLMs or LLMs. This simple
decoupling removes unstable weighting terms and yields faster, more reliable
convergence. Training a single VLM with VL-DAC in one inexpensive simulator at
a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies
that generalize widely: +50\% relative on BALROG (game-centric agentic
control), +5\% relative on the hardest part of VSI-Bench (spatial planning),
and +2\% on VisualWebBench (web navigation), all without degrading general
image understanding accuracy. These results provide the first evidence that a
simple RL algorithm can train VLMs entirely in cheap synthetic worlds while
delivering measurable gains on real-image agentic, spatial-reasoning, and
web-navigation benchmarks.