G1 : Amélioration des capacités de perception et de raisonnement d'un modèle vision-langage via l'apprentissage par renforcement
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
May 19, 2025
Auteurs: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI
Résumé
Les modèles vision-langage (VLMs) excellent dans de nombreuses tâches multimodales directes, mais peinent à traduire cette prouesse en une prise de décision efficace dans des environnements interactifs et visuellement riches comme les jeux. Cet écart entre « savoir et faire » limite considérablement leur potentiel en tant qu'agents autonomes, les VLMs leaders obtenant souvent de mauvais résultats dans des jeux simples. Pour remédier à cela, nous introduisons VLM-Gym, un environnement d'apprentissage par renforcement (RL) soigneusement conçu, proposant une variété de jeux visuels avec des interfaces unifiées et une difficulté ajustable et compositionnelle, spécialement conçu pour un entraînement parallèle multi-jeux évolutif. En exploitant VLM-Gym, nous entraînons des modèles G0 en utilisant une auto-évolution purement pilotée par RL, qui démontrent des schémas émergents de perception et de raisonnement. Pour atténuer davantage les défis liés à la diversité des jeux, nous développons des modèles G1. G1 intègre une phase de démarrage à froid améliorée par la perception avant un ajustement fin par RL. Nos modèles G1 résultants surpassent systématiquement leur enseignant dans tous les jeux et surpassent les modèles propriétaires leaders comme Claude-3.7-Sonnet-Thinking. Une analyse systématique révèle une découverte intrigante : les capacités de perception et de raisonnement se renforcent mutuellement tout au long du processus d'entraînement par RL. Le code source, incluant VLM-Gym et l'entraînement RL, est publié à l'adresse https://github.com/chenllliang/G1 pour favoriser les recherches futures visant à faire progresser les VLMs en tant qu'agents interactifs compétents.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but
struggle to translate this prowess into effective decision-making within
interactive, visually rich environments like games. This ``knowing-doing'' gap
significantly limits their potential as autonomous agents, as leading VLMs
often performing badly in simple games. To address this, we introduce VLM-Gym,
a curated reinforcement learning (RL) environment featuring diverse visual
games with unified interfaces and adjustable, compositional difficulty,
specifically designed for scalable multi-game parallel training. Leveraging
VLM-Gym, we train G0 models using pure RL-driven self-evolution, which
demonstrate emergent perception and reasoning patterns. To further mitigate
challenges arising from game diversity, we develop G1 models. G1 incorporates a
perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models
consistently surpass their teacher across all games and outperform leading
proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals
an intriguing finding: perception and reasoning abilities mutually bootstrap
each other throughout the RL training process. Source code including VLM-Gym
and RL training are released at https://github.com/chenllliang/G1 to foster
future research in advancing VLMs as capable interactive agents.Summary
AI-Generated Summary