ChatPaper.aiChatPaper

Улучшение обучения моделей "визуальный язык" с использованием обучения с подкреплением в синтетических мирах для успеха в реальном мире

Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

August 6, 2025
Авторы: George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov
cs.AI

Аннотация

Интерактивные мультимодальные агенты должны преобразовывать необработанные визуальные наблюдения в последовательные действия, обусловленные языком — способность, которой современные модели обработки визуальной и языковой информации (VLMs) всё ещё не обладают. В принципе, более ранние подходы на основе обучения с подкреплением (RL) могли бы наделить VLMs такими навыками, но они редко проверяли, обобщаются ли изученные поведения за пределы их обучающих симуляторов, и зависели либо от хрупкой настройки гиперпараметров, либо от сред с плотными наградами и низкой вариативностью состояний. Мы представляем Vision-Language Decoupled Actor-Critic (VL-DAC) — лёгкий, свободный от гиперпараметров алгоритм RL. VL-DAC применяет обновления PPO к токенам действий, обучая функцию ценности только на уровне шагов среды: такая организация, насколько нам известно, ранее не исследовалась для крупных VLMs или LLMs. Это простое разделение устраняет нестабильные весовые коэффициенты и обеспечивает более быструю и надёжную сходимость. Обучение одной VLM с помощью VL-DAC в одном недорогом симуляторе за раз (MiniWorld, Gym-Cards, ALFWorld или WebShop) уже даёт политики, которые широко обобщаются: +50\% относительно BALROG (агентское управление в играх), +5\% относительно самой сложной части VSI-Bench (пространственное планирование) и +2\% на VisualWebBench (веб-навигация), при этом не ухудшая точность общего понимания изображений. Эти результаты впервые демонстрируют, что простой алгоритм RL может обучать VLMs полностью в дешёвых синтетических мирах, обеспечивая измеримые улучшения на реальных тестах для агентского управления, пространственного мышления и веб-навигации.
English
Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state variability. We introduce Vision-Language Decoupled Actor-Critic (VL-DAC), a lightweight, hyperparameter-free RL algorithm. VL-DAC applies PPO updates to action tokens while learning value only at the environment-step level: an arrangement, to our knowledge, not previously explored for large VLMs or LLMs. This simple decoupling removes unstable weighting terms and yields faster, more reliable convergence. Training a single VLM with VL-DAC in one inexpensive simulator at a time (MiniWorld, Gym-Cards, ALFWorld, or WebShop) already produces policies that generalize widely: +50\% relative on BALROG (game-centric agentic control), +5\% relative on the hardest part of VSI-Bench (spatial planning), and +2\% on VisualWebBench (web navigation), all without degrading general image understanding accuracy. These results provide the first evidence that a simple RL algorithm can train VLMs entirely in cheap synthetic worlds while delivering measurable gains on real-image agentic, spatial-reasoning, and web-navigation benchmarks.
PDF322August 7, 2025