ChatPaper.aiChatPaper

Amélioration de l'entraînement des modèles vision-langage grâce à l'apprentissage par renforcement dans des mondes synthétiques pour des succès en contexte réel

Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

August 6, 2025
papers.authors: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI

papers.abstract

Les agents interactifs multimodaux doivent convertir des observations visuelles brutes en séquences cohérentes d'actions conditionnées par le langage — une capacité que les modèles vision-langage (VLMs) actuels ne possèdent pas encore. Les efforts antérieurs en apprentissage par renforcement (RL) pourraient, en principe, doter les VLMs de telles compétences, mais ils ont rarement testé si les comportements appris se généralisent au-delà de leurs simulateurs d'entraînement, et ils dépendent soit d'un réglage hyperparamétrique fragile, soit d'environnements à récompense dense avec une faible variabilité d'état. Nous introduisons Vision-Language Decoupled Actor-Critic (VL-DAC), un algorithme RL léger et sans hyperparamètres. VL-DAC applique des mises à jour PPO aux tokens d'action tout en apprenant la valeur uniquement au niveau de l'étape environnementale : une configuration, à notre connaissance, non explorée auparavant pour les grands VLMs ou LLMs. Ce découplage simple supprime les termes de pondération instables et permet une convergence plus rapide et plus fiable. L'entraînement d'un seul VLM avec VL-DAC dans un simulateur peu coûteux à la fois (MiniWorld, Gym-Cards, ALFWorld ou WebShop) produit déjà des politiques qui se généralisent largement : +50 % relatif sur BALROG (contrôle agentique centré sur le jeu), +5 % relatif sur la partie la plus difficile de VSI-Bench (planification spatiale), et +2 % sur VisualWebBench (navigation web), le tout sans dégrader la précision générale de la compréhension d'images. Ces résultats fournissent la première preuve qu'un algorithme RL simple peut entraîner des VLMs entièrement dans des mondes synthétiques bon marché tout en offrant des gains mesurables sur des benchmarks réels de contrôle agentique, de raisonnement spatial et de navigation web.
English
Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state variability. We introduce Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight, hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens while learning value only at the environment-step level: an arrangement, to our knowledge, not previously explored for large VLMs or LLMs. This simple decoupling removes unstable weighting terms and yields faster, more reliable convergence. Training a single VLM with VL-DAC in one inexpensive simulator at a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies that generalize widely: +50\% relative on BALROG (game-centric agentic control), +5\% relative on the hardest part of VSI-Bench (spatial planning), and +2\% on VisualWebBench (web navigation), all without degrading general image understanding accuracy. These results provide the first evidence that a simple RL algorithm can train VLMs entirely in cheap synthetic worlds while delivering measurable gains on real-image agentic, spatial-reasoning, and web-navigation benchmarks.
PDF322August 7, 2025