ChatPaper.aiChatPaper

G1 : Amélioration des capacités de perception et de raisonnement d'un modèle vision-langage via l'apprentissage par renforcement

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

May 19, 2025
Auteurs: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI

Résumé

Les modèles vision-langage (VLMs) excellent dans de nombreuses tâches multimodales directes, mais peinent à traduire cette prouesse en une prise de décision efficace dans des environnements interactifs et visuellement riches comme les jeux. Cet écart entre « savoir et faire » limite considérablement leur potentiel en tant qu'agents autonomes, les VLMs leaders obtenant souvent de mauvais résultats dans des jeux simples. Pour remédier à cela, nous introduisons VLM-Gym, un environnement d'apprentissage par renforcement (RL) soigneusement conçu, proposant une variété de jeux visuels avec des interfaces unifiées et une difficulté ajustable et compositionnelle, spécialement conçu pour un entraînement parallèle multi-jeux évolutif. En exploitant VLM-Gym, nous entraînons des modèles G0 en utilisant une auto-évolution purement pilotée par RL, qui démontrent des schémas émergents de perception et de raisonnement. Pour atténuer davantage les défis liés à la diversité des jeux, nous développons des modèles G1. G1 intègre une phase de démarrage à froid améliorée par la perception avant un ajustement fin par RL. Nos modèles G1 résultants surpassent systématiquement leur enseignant dans tous les jeux et surpassent les modèles propriétaires leaders comme Claude-3.7-Sonnet-Thinking. Une analyse systématique révèle une découverte intrigante : les capacités de perception et de raisonnement se renforcent mutuellement tout au long du processus d'entraînement par RL. Le code source, incluant VLM-Gym et l'entraînement RL, est publié à l'adresse https://github.com/chenllliang/G1 pour favoriser les recherches futures visant à faire progresser les VLMs en tant qu'agents interactifs compétents.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.

Summary

AI-Generated Summary

PDF122May 27, 2025