G1: Mejora de las capacidades de percepción y razonamiento de modelos visión-lenguaje mediante aprendizaje por refuerzo
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
May 19, 2025
Autores: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs) sobresalen en muchas tareas multimodales directas, pero tienen dificultades para traducir esta capacidad en una toma de decisiones efectiva dentro de entornos interactivos y visualmente ricos, como los juegos. Esta brecha entre "saber y hacer" limita significativamente su potencial como agentes autónomos, ya que los VLMs líderes a menudo tienen un rendimiento deficiente en juegos simples. Para abordar esto, presentamos VLM-Gym, un entorno de aprendizaje por refuerzo (RL) curado que incluye diversos juegos visuales con interfaces unificadas y dificultad ajustable y composicional, específicamente diseñado para un entrenamiento paralelo escalable en múltiples juegos. Utilizando VLM-Gym, entrenamos modelos G0 mediante una evolución autónoma impulsada únicamente por RL, los cuales demuestran patrones emergentes de percepción y razonamiento. Para mitigar aún más los desafíos derivados de la diversidad de juegos, desarrollamos modelos G1. G1 incorpora un inicio frío mejorado en percepción antes del ajuste fino mediante RL. Nuestros modelos G1 resultantes superan consistentemente a su maestro en todos los juegos y superan a modelos propietarios líderes como Claude-3.7-Sonnet-Thinking. Un análisis sistemático revela un hallazgo intrigante: las habilidades de percepción y razonamiento se refuerzan mutuamente durante el proceso de entrenamiento con RL. El código fuente, incluyendo VLM-Gym y el entrenamiento de RL, se ha publicado en https://github.com/chenllliang/G1 para fomentar futuras investigaciones en el avance de los VLMs como agentes interactivos capaces.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but
struggle to translate this prowess into effective decision-making within
interactive, visually rich environments like games. This ``knowing-doing'' gap
significantly limits their potential as autonomous agents, as leading VLMs
often performing badly in simple games. To address this, we introduce VLM-Gym,
a curated reinforcement learning (RL) environment featuring diverse visual
games with unified interfaces and adjustable, compositional difficulty,
specifically designed for scalable multi-game parallel training. Leveraging
VLM-Gym, we train G0 models using pure RL-driven self-evolution, which
demonstrate emergent perception and reasoning patterns. To further mitigate
challenges arising from game diversity, we develop G1 models. G1 incorporates a
perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models
consistently surpass their teacher across all games and outperform leading
proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals
an intriguing finding: perception and reasoning abilities mutually bootstrap
each other throughout the RL training process. Source code including VLM-Gym
and RL training are released at https://github.com/chenllliang/G1 to foster
future research in advancing VLMs as capable interactive agents.Summary
AI-Generated Summary