ChatPaper.aiChatPaper

G1: Mejora de las capacidades de percepción y razonamiento de modelos visión-lenguaje mediante aprendizaje por refuerzo

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

May 19, 2025
Autores: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI

Resumen

Los Modelos de Visión-Lenguaje (VLMs) sobresalen en muchas tareas multimodales directas, pero tienen dificultades para traducir esta capacidad en una toma de decisiones efectiva dentro de entornos interactivos y visualmente ricos, como los juegos. Esta brecha entre "saber y hacer" limita significativamente su potencial como agentes autónomos, ya que los VLMs líderes a menudo tienen un rendimiento deficiente en juegos simples. Para abordar esto, presentamos VLM-Gym, un entorno de aprendizaje por refuerzo (RL) curado que incluye diversos juegos visuales con interfaces unificadas y dificultad ajustable y composicional, específicamente diseñado para un entrenamiento paralelo escalable en múltiples juegos. Utilizando VLM-Gym, entrenamos modelos G0 mediante una evolución autónoma impulsada únicamente por RL, los cuales demuestran patrones emergentes de percepción y razonamiento. Para mitigar aún más los desafíos derivados de la diversidad de juegos, desarrollamos modelos G1. G1 incorpora un inicio frío mejorado en percepción antes del ajuste fino mediante RL. Nuestros modelos G1 resultantes superan consistentemente a su maestro en todos los juegos y superan a modelos propietarios líderes como Claude-3.7-Sonnet-Thinking. Un análisis sistemático revela un hallazgo intrigante: las habilidades de percepción y razonamiento se refuerzan mutuamente durante el proceso de entrenamiento con RL. El código fuente, incluyendo VLM-Gym y el entrenamiento de RL, se ha publicado en https://github.com/chenllliang/G1 para fomentar futuras investigaciones en el avance de los VLMs como agentes interactivos capaces.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.

Summary

AI-Generated Summary

PDF122May 27, 2025