G1: Potenziamento delle capacità percettive e di ragionamento dei modelli visione-linguaggio tramite apprendimento per rinforzo
G1: Bootstrapping Perception and Reasoning Abilities of Vision-Language Model via Reinforcement Learning
May 19, 2025
Autori: Liang Chen, Hongcheng Gao, Tianyu Liu, Zhiqi Huang, Flood Sung, Xinyu Zhou, Yuxin Wu, Baobao Chang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) eccellono in molti compiti multimodali diretti, ma faticano a tradurre questa abilità in un processo decisionale efficace all'interno di ambienti interattivi e visivamente ricchi come i giochi. Questo "divario tra sapere e fare" limita significativamente il loro potenziale come agenti autonomi, poiché i principali VLMs spesso si comportano male in giochi semplici. Per affrontare questo problema, introduciamo VLM-Gym, un ambiente di apprendimento per rinforzo (RL) curato che presenta una varietà di giochi visivi con interfacce unificate e difficoltà componibile e regolabile, progettato specificamente per un addestramento parallelo scalabile su più giochi. Utilizzando VLM-Gym, addestriamo i modelli G0 attraverso un'auto-evoluzione guidata esclusivamente da RL, che dimostrano schemi emergenti di percezione e ragionamento. Per mitigare ulteriormente le sfide derivanti dalla diversità dei giochi, sviluppiamo i modelli G1. G1 incorpora un avvio a freddo potenziato dalla percezione prima del fine-tuning RL. I nostri modelli G1 risultanti superano costantemente il loro insegnante in tutti i giochi e superano i principali modelli proprietari come Claude-3.7-Sonnet-Thinking. Un'analisi sistematica rivela un risultato intrigante: le capacità di percezione e ragionamento si rafforzano reciprocamente durante il processo di addestramento RL. Il codice sorgente, inclusi VLM-Gym e l'addestramento RL, è rilasciato su https://github.com/chenllliang/G1 per promuovere future ricerche nel progresso dei VLMs come agenti interattivi capaci.
English
Vision-Language Models (VLMs) excel in many direct multimodal tasks but
struggle to translate this prowess into effective decision-making within
interactive, visually rich environments like games. This ``knowing-doing'' gap
significantly limits their potential as autonomous agents, as leading VLMs
often performing badly in simple games. To address this, we introduce VLM-Gym,
a curated reinforcement learning (RL) environment featuring diverse visual
games with unified interfaces and adjustable, compositional difficulty,
specifically designed for scalable multi-game parallel training. Leveraging
VLM-Gym, we train G0 models using pure RL-driven self-evolution, which
demonstrate emergent perception and reasoning patterns. To further mitigate
challenges arising from game diversity, we develop G1 models. G1 incorporates a
perception-enhanced cold start prior to RL fine-tuning. Our resulting G1 models
consistently surpass their teacher across all games and outperform leading
proprietary models like Claude-3.7-Sonnet-Thinking. Systematic analysis reveals
an intriguing finding: perception and reasoning abilities mutually bootstrap
each other throughout the RL training process. Source code including VLM-Gym
and RL training are released at https://github.com/chenllliang/G1 to foster
future research in advancing VLMs as capable interactive agents.