Mejoramiento del Entrenamiento de Modelos de Visión-Lenguaje con Aprendizaje por Refuerzo en Mundos Sintéticos para el Éxito en el Mundo Real
Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success
August 6, 2025
Autores: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI
Resumen
Los agentes interactivos multimodales deben convertir observaciones visuales en bruto en secuencias coherentes de acciones condicionadas por el lenguaje, una capacidad que los modelos actuales de visión y lenguaje (VLMs) aún no poseen. Los esfuerzos previos en aprendizaje por refuerzo (RL) podrían, en principio, dotar a los VLMs de tales habilidades, pero rara vez han probado si los comportamientos aprendidos se generalizan más allá de sus simuladores de entrenamiento, y dependen ya sea de ajustes hiperparamétricos frágiles o de entornos de recompensa densa con baja variabilidad de estado. Presentamos Vision-Language Decoupled Actor-Critic (VL-DAC), un algoritmo de RL ligero y libre de hiperparámetros. VL-DAC aplica actualizaciones PPO a los tokens de acción mientras aprende el valor solo a nivel de paso del entorno: una disposición que, hasta donde sabemos, no se ha explorado previamente para VLMs o LLMs grandes. Este simple desacoplamiento elimina términos de ponderación inestables y produce una convergencia más rápida y confiable. Entrenar un solo VLM con VL-DAC en un simulador económico a la vez (MiniWorld, Gym-Cards, ALFWorld o WebShop) ya produce políticas que se generalizan ampliamente: +50\% relativo en BALROG (control agéntico centrado en juegos), +5\% relativo en la parte más difícil de VSI-Bench (planificación espacial) y +2\% en VisualWebBench (navegación web), todo ello sin degradar la precisión general de comprensión de imágenes. Estos resultados proporcionan la primera evidencia de que un algoritmo de RL simple puede entrenar VLMs completamente en mundos sintéticos económicos mientras ofrece mejoras medibles en puntos de referencia agénticos, de razonamiento espacial y de navegación web con imágenes reales.
English
Interactive multimodal agents must convert raw visual observations into
coherent sequences of language-conditioned actions -- a capability that current
vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL)
efforts could, in principle, endow VLMs with such skills, but they have seldom
tested whether the learned behaviours generalize beyond their training
simulators, and they depend either on brittle hyperparameter tuning or on
dense-reward environments with low state variability. We introduce
Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight,
hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens
while learning value only at the environment-step level: an arrangement, to our
knowledge, not previously explored for large VLMs or LLMs. This simple
decoupling removes unstable weighting terms and yields faster, more reliable
convergence. Training a single VLM with VL-DAC in one inexpensive simulator at
a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies
that generalize widely: +50\% relative on BALROG (game-centric agentic
control), +5\% relative on the hardest part of VSI-Bench (spatial planning),
and +2\% on VisualWebBench (web navigation), all without degrading general
image understanding accuracy. These results provide the first evidence that a
simple RL algorithm can train VLMs entirely in cheap synthetic worlds while
delivering measurable gains on real-image agentic, spatial-reasoning, and
web-navigation benchmarks.