G1: Bootstrapping von Wahrnehmungs- und Denkfähigkeiten eines Vision-Sprache-Modells durch Reinforcement Learning
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
May 19, 2025
Autoren: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI
Zusammenfassung
Vision-Language Models (VLMs) glänzen in vielen direkten multimodalen Aufgaben, haben jedoch Schwierigkeiten, diese Fähigkeiten in effektive Entscheidungsfindung in interaktiven, visuell reichhaltigen Umgebungen wie Spielen zu übertragen. Diese „Wissen-Handeln“-Lücke schränkt ihr Potenzial als autonome Agenten erheblich ein, da führende VLMs oft in einfachen Spielen schlecht abschneiden. Um dies zu adressieren, stellen wir VLM-Gym vor, eine kuratierte Reinforcement-Learning (RL)-Umgebung, die diverse visuelle Spiele mit einheitlichen Schnittstellen und anpassbarer, kompositioneller Schwierigkeit bietet, speziell entwickelt für skalierbares Multi-Game-Parallel-Training. Mit VLM-Gym trainieren wir G0-Modelle mittels reinem RL-gesteuertem Selbstentwicklungsprozess, die emergente Wahrnehmungs- und Denkmuster demonstrieren. Um die Herausforderungen durch die Spielvielfalt weiter zu mildern, entwickeln wir G1-Modelle. G1 integriert eine wahrnehmungsgesteuerte Kaltstartphase vor dem RL-Feintuning. Unsere resultierenden G1-Modelle übertreffen konsequent ihre Lehrer in allen Spielen und übertreffen führende proprietäre Modelle wie Claude-3.7-Sonnet-Thinking. Systematische Analysen offenbaren eine interessante Erkenntnis: Wahrnehmungs- und Denkfähigkeiten bootstrappen sich gegenseitig während des RL-Trainingsprozesses. Der Quellcode, einschließlich VLM-Gym und RL-Training, wird unter https://github.com/chenllliang/G1 veröffentlicht, um zukünftige Forschung zur Weiterentwicklung von VLMs als fähige interaktive Agenten zu fördern.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but
struggle to translate this prowess into effective decision-making within
interactive, visually rich environments like games. This ``knowing-doing'' gap
significantly limits their potential as autonomous agents, as leading VLMs
often performing badly in simple games. To address this, we introduce VLM-Gym,
a curated reinforcement learning (RL) environment featuring diverse visual
games with unified interfaces and adjustable, compositional difficulty,
specifically designed for scalable multi-game parallel training. Leveraging
VLM-Gym, we train G0 models using pure RL-driven self-evolution, which
demonstrate emergent perception and reasoning patterns. To further mitigate
challenges arising from game diversity, we develop G1 models. G1 incorporates a
perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models
consistently surpass their teacher across all games and outperform leading
proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals
an intriguing finding: perception and reasoning abilities mutually bootstrap
each other throughout the RL training process. Source code including VLM-Gym
and RL training are released at https://github.com/chenllliang/G1 to foster
future research in advancing VLMs as capable interactive agents.Summary
AI-Generated Summary