ChatPaper.aiChatPaper

Aprimorando o Treinamento de Modelos Visão-Linguagem com Aprendizado por Reforço em Mundos Sintéticos para Sucesso no Mundo Real

Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

August 6, 2025
Autores: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI

Resumo

Agentes multimodais interativos devem converter observações visuais brutas em sequências coerentes de ações condicionadas por linguagem — uma capacidade que os modelos visão-linguagem (VLMs) atuais ainda não possuem. Esforços anteriores de aprendizado por reforço (RL), em princípio, poderiam dotar os VLMs com tais habilidades, mas raramente testaram se os comportamentos aprendidos generalizam além de seus simuladores de treinamento, e dependem de ajustes hiperparamétricos frágeis ou de ambientes com recompensas densas e baixa variabilidade de estado. Introduzimos o Vision-Language Decoupled Actor-Critic (VL-DAC), um algoritmo de RL leve e livre de hiperparâmetros. O VL-DAC aplica atualizações PPO aos tokens de ação enquanto aprende valor apenas no nível do passo do ambiente: um arranjo, até onde sabemos, não explorado anteriormente para grandes VLMs ou LLMs. Essa simples dissociação remove termos de ponderação instáveis e resulta em convergência mais rápida e confiável. Treinar um único VLM com VL-DAC em um simulador de baixo custo de cada vez (MiniWorld, Gym-Cards, ALFWorld ou WebShop) já produz políticas que generalizam amplamente: +50\% relativo no BALROG (controle agente centrado em jogos), +5\% relativo na parte mais difícil do VSI-Bench (planejamento espacial) e +2\% no VisualWebBench (navegação na web), tudo sem degradar a precisão geral de compreensão de imagens. Esses resultados fornecem a primeira evidência de que um algoritmo de RL simples pode treinar VLMs inteiramente em mundos sintéticos baratos enquanto entrega ganhos mensuráveis em benchmarks de controle agente, raciocínio espacial e navegação na web com imagens reais.
English
Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state variability. We introduce Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight, hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens while learning value only at the environment-step level: an arrangement, to our knowledge, not previously explored for large VLMs or LLMs. This simple decoupling removes unstable weighting terms and yields faster, more reliable convergence. Training a single VLM with VL-DAC in one inexpensive simulator at a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies that generalize widely: +50\% relative on BALROG (game-centric agentic control), +5\% relative on the hardest part of VSI-Bench (spatial planning), and +2\% on VisualWebBench (web navigation), all without degrading general image understanding accuracy. These results provide the first evidence that a simple RL algorithm can train VLMs entirely in cheap synthetic worlds while delivering measurable gains on real-image agentic, spatial-reasoning, and web-navigation benchmarks.
PDF352August 7, 2025