G1: Aprimorando as Capacidades de Percepção e Raciocínio de Modelos Visão-Linguagem por meio de Aprendizado por Reforço
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
May 19, 2025
Autores: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI
Resumo
Modelos de Visão-Linguagem (VLMs) se destacam em muitas tarefas multimodais diretas, mas lutam para traduzir essa capacidade em tomadas de decisão eficazes em ambientes interativos e visualmente ricos, como jogos. Essa lacuna entre "saber e fazer" limita significativamente seu potencial como agentes autônomos, já que os principais VLMs frequentemente têm desempenho ruim em jogos simples. Para abordar isso, introduzimos o VLM-Gym, um ambiente de aprendizado por reforço (RL) cuidadosamente selecionado, que apresenta diversos jogos visuais com interfaces unificadas e dificuldade ajustável e composicional, projetado especificamente para treinamento paralelo escalável em múltiplos jogos. Utilizando o VLM-Gym, treinamos modelos G0 usando pura auto-evolução impulsionada por RL, que demonstram padrões emergentes de percepção e raciocínio. Para mitigar ainda mais os desafios decorrentes da diversidade de jogos, desenvolvemos modelos G1. O G1 incorpora um início frio aprimorado por percepção antes do ajuste fino com RL. Nossos modelos G1 resultantes superam consistentemente seu professor em todos os jogos e superam modelos proprietários líderes, como o Claude-3.7-Sonnet-Thinking. Análises sistemáticas revelam uma descoberta intrigante: as habilidades de percepção e raciocínio se impulsionam mutuamente ao longo do processo de treinamento com RL. O código-fonte, incluindo o VLM-Gym e o treinamento de RL, foi liberado em https://github.com/chenllliang/G1 para promover pesquisas futuras no avanço de VLMs como agentes interativos capazes.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but
struggle to translate this prowess into effective decision-making within
interactive, visually rich environments like games. This ``knowing-doing'' gap
significantly limits their potential as autonomous agents, as leading VLMs
often performing badly in simple games. To address this, we introduce VLM-Gym,
a curated reinforcement learning (RL) environment featuring diverse visual
games with unified interfaces and adjustable, compositional difficulty,
specifically designed for scalable multi-game parallel training. Leveraging
VLM-Gym, we train G0 models using pure RL-driven self-evolution, which
demonstrate emergent perception and reasoning patterns. To further mitigate
challenges arising from game diversity, we develop G1 models. G1 incorporates a
perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models
consistently surpass their teacher across all games and outperform leading
proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals
an intriguing finding: perception and reasoning abilities mutually bootstrap
each other throughout the RL training process. Source code including VLM-Gym
and RL training are released at https://github.com/chenllliang/G1 to foster
future research in advancing VLMs as capable interactive agents.