ChatPaper.aiChatPaper

G1: Het opstarten van perceptie- en redeneervaardigheden van een visueel-taalmodel via reinforcement learning

G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning

May 19, 2025
Auteurs: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI

Samenvatting

Vision-Language Models (VLMs) blinken uit in veel directe multimodale taken, maar hebben moeite om deze vaardigheid om te zetten in effectieve besluitvorming binnen interactieve, visueel rijke omgevingen zoals games. Deze "kennis-handeling"-kloof beperkt hun potentieel als autonome agenten aanzienlijk, aangezien toonaangevende VLMs vaak slecht presteren in eenvoudige games. Om dit aan te pakken, introduceren we VLM-Gym, een zorgvuldig samengestelde reinforcement learning (RL)-omgeving met diverse visuele games met uniforme interfaces en aanpasbare, compositorische moeilijkheidsgraad, specifiek ontworpen voor schaalbare multi-game parallelle training. Met behulp van VLM-Gym trainen we G0-modellen met puur RL-gestuurde zelf-evolutie, die emergente perceptie- en redeneerpatronen demonstreren. Om de uitdagingen die voortkomen uit game-diversiteit verder te mitigeren, ontwikkelen we G1-modellen. G1 integreert een perceptie-verbeterde koude start voorafgaand aan RL-finetuning. Onze resulterende G1-modellen overtreffen consistent hun leermeester in alle games en presteren beter dan toonaangevende propriëtaire modellen zoals Claude-3.7-Sonnet-Thinking. Systematische analyse onthult een intrigerende bevinding: perceptie- en redeneervaardigheden bootsen elkaar wederzijds gedurende het RL-trainingsproces. Broncode inclusief VLM-Gym en RL-training is vrijgegeven op https://github.com/chenllliang/G1 om toekomstig onderzoek te bevorderen in het vooruithelpen van VLMs als capabele interactieve agenten.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but struggle to translate this prowess into effective decision-making within interactive, visually rich environments like games. This ``knowing-doing'' gap significantly limits their potential as autonomous agents, as leading VLMs often performing badly in simple games. To address this, we introduce VLM-Gym, a curated reinforcement learning (RL) environment featuring diverse visual games with unified interfaces and adjustable, compositional difficulty, specifically designed for scalable multi-game parallel training. Leveraging VLM-Gym, we train G0 models using pure RL-driven self-evolution, which demonstrate emergent perception and reasoning patterns. To further mitigate challenges arising from game diversity, we develop G1 models. G1 incorporates a perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models consistently surpass their teacher across all games and outperform leading proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals an intriguing finding: perception and reasoning abilities mutually bootstrap each other throughout the RL training process. Source code including VLM-Gym and RL training are released at https://github.com/chenllliang/G1 to foster future research in advancing VLMs as capable interactive agents.
PDF132May 27, 2025