G1: Развитие способностей восприятия и рассуждения в моделях "визуальный язык" с использованием обучения с подкреплением
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
May 19, 2025
Авторы: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют выдающиеся результаты во многих прямых мультимодальных задачах, однако испытывают трудности с применением этих способностей для эффективного принятия решений в интерактивных, визуально насыщенных средах, таких как игры. Этот разрыв между «знанием» и «действием» существенно ограничивает их потенциал в качестве автономных агентов, поскольку ведущие VLMs часто показывают низкие результаты в простых играх. Для решения этой проблемы мы представляем VLM-Gym — специализированную среду для обучения с подкреплением (Reinforcement Learning, RL), включающую разнообразные визуальные игры с унифицированными интерфейсами и настраиваемой, композиционной сложностью, специально разработанную для масштабируемого параллельного обучения на множестве игр. Используя VLM-Gym, мы обучаем модели G0 с помощью чистого RL-движимого саморазвития, которые демонстрируют возникающие паттерны восприятия и рассуждения. Для дальнейшего смягчения проблем, связанных с разнообразием игр, мы разрабатываем модели G1. G1 включает в себя улучшенное восприятие на этапе «холодного старта» перед тонкой настройкой с помощью RL. Полученные модели G1 стабильно превосходят своих учителей во всех играх и опережают ведущие проприетарные модели, такие как Claude-3.7-Sonnet-Thinking. Систематический анализ выявляет интригующий факт: способности восприятия и рассуждения взаимно усиливают друг друга на протяжении всего процесса RL-обучения. Исходный код, включая VLM-Gym и RL-обучение, опубликован на https://github.com/chenllliang/G1 для стимулирования будущих исследований в области развития VLMs как эффективных интерактивных агентов.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but
struggle to translate this prowess into effective decision-making within
interactive, visually rich environments like games. This ``knowing-doing'' gap
significantly limits their potential as autonomous agents, as leading VLMs
often performing badly in simple games. To address this, we introduce VLM-Gym,
a curated reinforcement learning (RL) environment featuring diverse visual
games with unified interfaces and adjustable, compositional difficulty,
specifically designed for scalable multi-game parallel training. Leveraging
VLM-Gym, we train G0 models using pure RL-driven self-evolution, which
demonstrate emergent perception and reasoning patterns. To further mitigate
challenges arising from game diversity, we develop G1 models. G1 incorporates a
perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models
consistently surpass their teacher across all games and outperform leading
proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals
an intriguing finding: perception and reasoning abilities mutually bootstrap
each other throughout the RL training process. Source code including VLM-Gym
and RL training are released at https://github.com/chenllliang/G1 to foster
future research in advancing VLMs as capable interactive agents.Summary
AI-Generated Summary