Mejoramiento del Entrenamiento de Modelos de Visión-Lenguaje con Aprendizaje por Refuerzo en Mundos Sintéticos para el Éxito en el Mundo Real

Resumen

Los agentes interactivos multimodales deben convertir observaciones visuales en bruto en secuencias coherentes de acciones condicionadas por el lenguaje, una capacidad que los modelos actuales de visión y lenguaje (VLMs) aún no poseen. Los esfuerzos previos en aprendizaje por refuerzo (RL) podrían, en principio, dotar a los VLMs de tales habilidades, pero rara vez han probado si los comportamientos aprendidos se generalizan más allá de sus simuladores de entrenamiento, y dependen ya sea de ajustes hiperparamétricos frágiles o de entornos de recompensa densa con baja variabilidad de estado. Presentamos Vision-Language Decoupled Actor-Critic (VL-DAC), un algoritmo de RL ligero y libre de hiperparámetros. VL-DAC aplica actualizaciones PPO a los tokens de acción mientras aprende el valor solo a nivel de paso del entorno: una disposición que, hasta donde sabemos, no se ha explorado previamente para VLMs o LLMs grandes. Este simple desacoplamiento elimina términos de ponderación inestables y produce una convergencia más rápida y confiable. Entrenar un solo VLM con VL-DAC en un simulador económico a la vez (MiniWorld, Gym-Cards, ALFWorld o WebShop) ya produce políticas que se generalizan ampliamente: +50\% relativo en BALROG (control agéntico centrado en juegos), +5\% relativo en la parte más difícil de VSI-Bench (planificación espacial) y +2\% en VisualWebBench (navegación web), todo ello sin degradar la precisión general de comprensión de imágenes. Estos resultados proporcionan la primera evidencia de que un algoritmo de RL simple puede entrenar VLMs completamente en mundos sintéticos económicos mientras ofrece mejoras medibles en puntos de referencia agénticos, de razonamiento espacial y de navegación web con imágenes reales.

English

Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state variability. We introduce Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight, hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens while learning value only at the environment-step level: an arrangement, to our knowledge, not previously explored for large VLMs or LLMs. This simple decoupling removes unstable weighting terms and yields faster, more reliable convergence. Training a single VLM with VL-DAC in one inexpensive simulator at a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies that generalize widely: +50\% relative on BALROG (game-centric agentic control), +5\% relative on the hardest part of VSI-Bench (spatial planning), and +2\% on VisualWebBench (web navigation), all without degrading general image understanding accuracy. These results provide the first evidence that a simple RL algorithm can train VLMs entirely in cheap synthetic worlds while delivering measurable gains on real-image agentic, spatial-reasoning, and web-navigation benchmarks.

Mejoramiento del Entrenamiento de Modelos de Visión-Lenguaje con Aprendizaje por Refuerzo en Mundos Sintéticos para el Éxito en el Mundo Real

Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

Resumen

Support