Verbesserung des Trainings von Vision-Sprache-Modellen durch Verstärkungslernen in synthetischen Welten für Erfolg in der realen Welt
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success
August 6, 2025
papers.authors: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI
papers.abstract
Interaktive multimodale Agenten müssen rohe visuelle Beobachtungen in kohärente Sequenzen von sprachbedingten Aktionen umwandeln – eine Fähigkeit, die aktuelle Vision-Language-Modelle (VLMs) noch nicht besitzen. Frühere Reinforcement-Learning (RL)-Ansätze könnten prinzipiell VLMs mit solchen Fähigkeiten ausstatten, aber sie haben selten getestet, ob die gelernten Verhaltensweisen über ihre Trainingssimulatoren hinaus generalisieren, und sie sind entweder auf empfindliche Hyperparameter-Tuning oder auf Umgebungen mit dichten Belohnungen und geringer Zustandsvarianz angewiesen. Wir stellen Vision-Language Decoupled Actor-Critic (VL-DAC) vor, einen leichten, hyperparameterfreien RL-Algorithmus. VL-DAC wendet PPO-Updates auf Aktions-Tokens an, während der Wert nur auf der Ebene der Umgebungsschritte gelernt wird: eine Anordnung, die unseres Wissens bisher nicht für große VLMs oder LLMs erforscht wurde. Diese einfache Entkopplung entfernt instabile Gewichtungsterme und führt zu schnellerer, zuverlässigerer Konvergenz. Das Training eines einzelnen VLM mit VL-DAC in einem kostengünstigen Simulator nach dem anderen (MiniWorld, Gym-Cards, ALFWorld oder WebShop) erzeugt bereits Richtlinien, die weitgehend generalisieren: +50\% relativ auf BALROG (spielzentrierte agentische Steuerung), +5\% relativ auf dem schwierigsten Teil von VSI-Bench (räumliche Planung) und +2\% auf VisualWebBench (Web-Navigation), alles ohne die allgemeine Bildverständnisgenauigkeit zu beeinträchtigen. Diese Ergebnisse liefern den ersten Beweis, dass ein einfacher RL-Algorithmus VLMs vollständig in kostengünstigen synthetischen Welten trainieren kann, während er messbare Verbesserungen auf realen Bildern für agentische, räumliche Schlussfolgerungs- und Web-Navigations-Benchmarks liefert.
English
Interactive multimodal agents must convert raw visual observations into
coherent sequences of language-conditioned actions -- a capability that current
vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL)
efforts could, in principle, endow VLMs with such skills, but they have seldom
tested whether the learned behaviours generalize beyond their training
simulators, and they depend either on brittle hyperparameter tuning or on
dense-reward environments with low state variability. We introduce
Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight,
hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens
while learning value only at the environment-step level: an arrangement, to our
knowledge, not previously explored for large VLMs or LLMs. This simple
decoupling removes unstable weighting terms and yields faster, more reliable
convergence. Training a single VLM with VL-DAC in one inexpensive simulator at
a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies
that generalize widely: +50\% relative on BALROG (game-centric agentic
control), +5\% relative on the hardest part of VSI-Bench (spatial planning),
and +2\% on VisualWebBench (web navigation), all without degrading general
image understanding accuracy. These results provide the first evidence that a
simple RL algorithm can train VLMs entirely in cheap synthetic worlds while
delivering measurable gains on real-image agentic, spatial-reasoning, and
web-navigation benchmarks.