Vision-Zero: Auto-miglioramento Scalabile dei Modelli Linguistici Visivi tramite Auto-gioco Strategico Gamificato
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
September 29, 2025
Autori: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI
Abstract
Sebbene l'apprendimento per rinforzo (RL) possa potenziare efficacemente le capacità di ragionamento dei modelli visione-linguaggio (VLMs), i metodi attuali rimangono fortemente dipendenti da dataset laboriosi che richiedono un'ampia costruzione e verifica manuale, portando a costi di formazione estremamente elevati e, di conseguenza, limitando l'implementazione pratica dei VLMs. Per affrontare questa sfida, proponiamo Vision-Zero, un framework agnostico al dominio che consente l'auto-miglioramento dei VLMs attraverso giochi visivi competitivi generati da coppie di immagini arbitrarie. Nello specifico, Vision-Zero comprende tre attributi principali: (1) Framework di Auto-Gioco Strategico: Vision-Zero addestra i VLMs in giochi in stile "Chi è la Spia", in cui i modelli si impegnano in ragionamenti e azioni strategiche attraverso più ruoli. Attraverso il gameplay interattivo, i modelli generano autonomamente i propri dati di addestramento senza annotazioni umane. (2) Gameplay da Immagini Arbitrarie: A differenza dei framework gamificati esistenti, Vision-Zero può generare giochi da immagini arbitrarie, migliorando così la capacità di ragionamento del modello in diversi domini e mostrando una forte generalizzazione su diversi compiti. Dimostriamo questa versatilità utilizzando tre tipi distinti di dataset di immagini: scene sintetiche basate su CLEVR, grafici e immagini del mondo reale. (3) Guadagno di Prestazione Sostenibile: Introduciamo l'Iterative Self-Play Policy Optimization (Iterative-SPO), un nuovo algoritmo di addestramento che alterna tra Auto-Gioco e apprendimento per rinforzo con ricompense verificabili (RLVR), mitigando il plateau di prestazione spesso osservato nell'addestramento basato esclusivamente sull'auto-gioco e ottenendo miglioramenti sostenuti a lungo termine. Nonostante l'uso di dati privi di etichette, Vision-Zero raggiunge prestazioni all'avanguardia in compiti di ragionamento, risposta a domande su grafici e comprensione centrata sulla visione, superando altri metodi basati su annotazioni. Modelli e codice sono stati rilasciati su https://github.com/wangqinsi1/Vision-Zero.
English
Although reinforcement learning (RL) can effectively enhance the reasoning
capabilities of vision-language models (VLMs), current methods remain heavily
dependent on labor-intensive datasets that require extensive manual
construction and verification, leading to extremely high training costs and
consequently constraining the practical deployment of VLMs. To address this
challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM
self-improvement through competitive visual games generated from arbitrary
image pairs. Specifically, Vision-Zero encompasses three main attributes: (1)
Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the
Spy"-style games, where the models engage in strategic reasoning and actions
across multiple roles. Through interactive gameplay, models autonomously
generate their training data without human annotation. (2) Gameplay from
Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate
games from arbitrary images, thereby enhancing the model's reasoning ability
across diverse domains and showing strong generalization to different tasks. We
demonstrate this versatility using three distinct types of image datasets:
CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable
Performance Gain: We introduce Iterative Self-Play Policy Optimization
(Iterative-SPO), a novel training algorithm that alternates between Self-Play
and reinforcement learning with verifiable rewards (RLVR), mitigating the
performance plateau often seen in self-play-only training and achieving
sustained long-term improvements. Despite using label-free data, Vision-Zero
achieves state-of-the-art performance on reasoning, chart question answering,
and vision-centric understanding tasks, surpassing other annotation-based
methods. Models and code has been released at
https://github.com/wangqinsi1/Vision-Zero.