Vision-Zero : Amélioration auto-scalable des modèles de langage visuel via un auto-jeu stratégique gamifié
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
September 29, 2025
papers.authors: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI
papers.abstract
Bien que l'apprentissage par renforcement (RL) puisse efficacement améliorer les capacités de raisonnement des modèles vision-langage (VLMs), les méthodes actuelles restent fortement dépendantes de jeux de données intensifs en main-d'œuvre, nécessitant une construction et une vérification manuelles approfondies, ce qui entraîne des coûts de formation extrêmement élevés et limite ainsi le déploiement pratique des VLMs. Pour relever ce défi, nous proposons Vision-Zero, un framework indépendant du domaine permettant l'auto-amélioration des VLMs grâce à des jeux visuels compétitifs générés à partir de paires d'images arbitraires. Plus précisément, Vision-Zero englobe trois attributs principaux : (1) Framework de Jeu Stratégique en Auto-Jeu : Vision-Zero entraîne les VLMs dans des jeux de style "Qui est l'espion", où les modèles s'engagent dans un raisonnement stratégique et des actions à travers plusieurs rôles. Grâce à un gameplay interactif, les modèles génèrent automatiquement leurs propres données d'entraînement sans annotation humaine. (2) Jeu à partir d'Images Arbitraires : Contrairement aux frameworks ludifiés existants, Vision-Zero peut générer des jeux à partir d'images arbitraires, améliorant ainsi la capacité de raisonnement du modèle à travers divers domaines et montrant une forte généralisation à différentes tâches. Nous démontrons cette polyvalence en utilisant trois types distincts de jeux de données d'images : des scènes synthétiques basées sur CLEVR, des graphiques et des images du monde réel. (3) Gain de Performance Durable : Nous introduisons l'Optimisation Itérative de Politique en Auto-Jeu (Iterative-SPO), un nouvel algorithme d'entraînement qui alterne entre l'Auto-Jeu et l'apprentissage par renforcement avec des récompenses vérifiables (RLVR), atténuant le plateau de performance souvent observé dans l'entraînement en auto-jeu uniquement et permettant des améliorations durables à long terme. Malgré l'utilisation de données sans étiquettes, Vision-Zero atteint des performances de pointe en matière de raisonnement, de réponse à des questions sur des graphiques et de compréhension centrée sur la vision, surpassant d'autres méthodes basées sur l'annotation. Les modèles et le code ont été publiés à l'adresse https://github.com/wangqinsi1/Vision-Zero.
English
Although reinforcement learning (RL) can effectively enhance the reasoning
capabilities of vision-language models (VLMs), current methods remain heavily
dependent on labor-intensive datasets that require extensive manual
construction and verification, leading to extremely high training costs and
consequently constraining the practical deployment of VLMs. To address this
challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM
self-improvement through competitive visual games generated from arbitrary
image pairs. Specifically, Vision-Zero encompasses three main attributes: (1)
Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the
Spy"-style games, where the models engage in strategic reasoning and actions
across multiple roles. Through interactive gameplay, models autonomously
generate their training data without human annotation. (2) Gameplay from
Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate
games from arbitrary images, thereby enhancing the model's reasoning ability
across diverse domains and showing strong generalization to different tasks. We
demonstrate this versatility using three distinct types of image datasets:
CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable
Performance Gain: We introduce Iterative Self-Play Policy Optimization
(Iterative-SPO), a novel training algorithm that alternates between Self-Play
and reinforcement learning with verifiable rewards (RLVR), mitigating the
performance plateau often seen in self-play-only training and achieving
sustained long-term improvements. Despite using label-free data, Vision-Zero
achieves state-of-the-art performance on reasoning, chart question answering,
and vision-centric understanding tasks, surpassing other annotation-based
methods. Models and code has been released at
https://github.com/wangqinsi1/Vision-Zero.