Vision-Zero: Schaalbaar VLM Zelfverbetering via Strategisch Gegamificeerd Zelfspel
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
September 29, 2025
Auteurs: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI
Samenvatting
Hoewel reinforcement learning (RL) effectief de redeneervaardigheden van vision-language models (VLMs) kan verbeteren, blijven huidige methoden sterk afhankelijk van arbeidsintensieve datasets die uitgebreide handmatige constructie en verificatie vereisen, wat leidt tot extreem hoge trainingskosten en daardoor de praktische inzet van VLMs beperkt. Om deze uitdaging aan te pakken, stellen we Vision-Zero voor, een domein-agnostisch framework dat VLM-zelfverbetering mogelijk maakt door middel van competitieve visuele spellen gegenereerd uit willekeurige beeldparen. Specifiek omvat Vision-Zero drie hoofdkenmerken: (1) Strategisch Zelfspel Framework: Vision-Zero traint VLMs in "Wie is de Spion"-achtige spellen, waarbij de modellen strategisch redeneren en handelen in meerdere rollen. Door interactief spel genereren de modellen autonoom hun trainingsdata zonder menselijke annotatie. (2) Spelgeneratie uit Willekeurige Beelden: In tegenstelling tot bestaande gegamificeerde frameworks, kan Vision-Zero spellen genereren uit willekeurige beelden, waardoor het redeneervermogen van het model over diverse domeinen wordt verbeterd en het sterke generalisatie naar verschillende taken vertoont. We demonstreren deze veelzijdigheid met drie verschillende soorten beelddatasets: CLEVR-gebaseerde synthetische scènes, grafieken en real-world beelden. (3) Duurzame Prestatieverbetering: We introduceren Iterative Self-Play Policy Optimization (Iterative-SPO), een nieuw trainingsalgoritme dat afwisselt tussen Zelfspel en reinforcement learning met verifieerbare beloningen (RLVR), waardoor het prestatieplateau dat vaak wordt gezien bij alleen zelfspel-training wordt gemitigeerd en duurzame langetermijnverbeteringen worden bereikt. Ondanks het gebruik van labelvrije data, behaalt Vision-Zero state-of-the-art prestaties op redeneer-, grafiekvraagbeantwoordings- en visiegerichte begripstaken, en overtreft het andere annotatiegebaseerde methoden. Modellen en code zijn vrijgegeven op https://github.com/wangqinsi1/Vision-Zero.
English
Although reinforcement learning (RL) can effectively enhance the reasoning
capabilities of vision-language models (VLMs), current methods remain heavily
dependent on labor-intensive datasets that require extensive manual
construction and verification, leading to extremely high training costs and
consequently constraining the practical deployment of VLMs. To address this
challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM
self-improvement through competitive visual games generated from arbitrary
image pairs. Specifically, Vision-Zero encompasses three main attributes: (1)
Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the
Spy"-style games, where the models engage in strategic reasoning and actions
across multiple roles. Through interactive gameplay, models autonomously
generate their training data without human annotation. (2) Gameplay from
Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate
games from arbitrary images, thereby enhancing the model's reasoning ability
across diverse domains and showing strong generalization to different tasks. We
demonstrate this versatility using three distinct types of image datasets:
CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable
Performance Gain: We introduce Iterative Self-Play Policy Optimization
(Iterative-SPO), a novel training algorithm that alternates between Self-Play
and reinforcement learning with verifiable rewards (RLVR), mitigating the
performance plateau often seen in self-play-only training and achieving
sustained long-term improvements. Despite using label-free data, Vision-Zero
achieves state-of-the-art performance on reasoning, chart question answering,
and vision-centric understanding tasks, surpassing other annotation-based
methods. Models and code has been released at
https://github.com/wangqinsi1/Vision-Zero.