Verbetering van Vision-Language Model Training met Reinforcement Learning in Synthetische Werelden voor Succes in de Echte Wereld
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success
August 6, 2025
Auteurs: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI
Samenvatting
Interactieve multimodale agents moeten ruwe visuele observaties omzetten in samenhangende reeksen van taal-geconditioneerde acties — een vaardigheid die huidige vision-language modellen (VLMs) nog steeds ontberen. Eerdere inspanningen op het gebied van reinforcement learning (RL) zouden in principe VLMs kunnen voorzien van dergelijke vaardigheden, maar ze hebben zelden getest of de aangeleerde gedragingen generaliseren buiten hun trainingssimulators, en ze zijn afhankelijk van kwetsbare hyperparameterafstemming of van omgevingen met dichte beloningen en lage staatvariabiliteit. Wij introduceren Vision-Language Decoupled Actor-Critic (VL-DAC), een lichtgewicht, hyperparameter-vrij RL-algoritme. VL-DAC past PPO-updates toe op actietokens terwijl het waarde alleen op het niveau van omgevingsstappen leert: een opzet die, voor zover wij weten, nog niet eerder is verkend voor grote VLMs of LLMs. Deze eenvoudige ontkoppeling verwijdert instabiele wegingstermen en resulteert in snellere, betrouwbaardere convergentie. Het trainen van een enkel VLM met VL-DAC in één goedkope simulator tegelijk (MiniWorld, Gym-Cards, ALFWorld of WebShop) produceert al beleidsregels die breed generaliseren: +50\% relatief op BALROG (game-gecentreerde agentische controle), +5\% relatief op het moeilijkste deel van VSI-Bench (ruimtelijke planning), en +2\% op VisualWebBench (webnavigatie), allemaal zonder de algemene beeldbegripsnauwkeurigheid te verslechteren. Deze resultaten leveren het eerste bewijs dat een eenvoudig RL-algoritme VLMs volledig kan trainen in goedkope synthetische werelden, terwijl het meetbare verbeteringen oplevert op benchmarks voor agentische controle, ruimtelijk redeneren en webnavigatie met echte beelden.
English
Interactive multimodal agents must convert raw visual observations into
coherent sequences of language-conditioned actions -- a capability that current
vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL)
efforts could, in principle, endow VLMs with such skills, but they have seldom
tested whether the learned behaviours generalize beyond their training
simulators, and they depend either on brittle hyperparameter tuning or on
dense-reward environments with low state variability. We introduce
Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight,
hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens
while learning value only at the environment-step level: an arrangement, to our
knowledge, not previously explored for large VLMs or LLMs. This simple
decoupling removes unstable weighting terms and yields faster, more reliable
convergence. Training a single VLM with VL-DAC in one inexpensive simulator at
a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies
that generalize widely: +50\% relative on BALROG (game-centric agentic
control), +5\% relative on the hardest part of VSI-Bench (spatial planning),
and +2\% on VisualWebBench (web navigation), all without degrading general
image understanding accuracy. These results provide the first evidence that a
simple RL algorithm can train VLMs entirely in cheap synthetic worlds while
delivering measurable gains on real-image agentic, spatial-reasoning, and
web-navigation benchmarks.