ChatPaper.aiChatPaper

Vision-Zero: Skalierbare VLM-Selbstverbesserung durch strategisches gamifiziertes Selbstspiel

Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

September 29, 2025
papers.authors: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI

papers.abstract

Obwohl Reinforcement Learning (RL) die Fähigkeiten von Vision-Language-Modellen (VLMs) effektiv verbessern kann, sind aktuelle Methoden stark von arbeitsintensiven Datensätzen abhängig, die umfangreiche manuelle Konstruktion und Überprüfung erfordern. Dies führt zu extrem hohen Trainingskosten und schränkt somit die praktische Anwendung von VLMs ein. Um diese Herausforderung zu bewältigen, schlagen wir Vision-Zero vor, ein domänenunabhängiges Framework, das die Selbstverbesserung von VLMs durch kompetitive visuelle Spiele ermöglicht, die aus beliebigen Bildpaaren generiert werden. Konkret umfasst Vision-Zero drei Hauptmerkmale: (1) Strategisches Selbstspiel-Framework: Vision-Zero trainiert VLMs in „Wer ist der Spion“-ähnlichen Spielen, in denen die Modelle strategisches Denken und Handeln in mehreren Rollen anwenden. Durch interaktives Spielen generieren die Modelle ihre Trainingsdaten autonom, ohne menschliche Annotation. (2) Spielgenerierung aus beliebigen Bildern: Im Gegensatz zu bestehenden gamifizierten Frameworks kann Vision-Zero Spiele aus beliebigen Bildern generieren und so die Fähigkeit des Modells zur Schlussfolgerung über verschiedene Domänen hinweg verbessern, was eine starke Generalisierung für unterschiedliche Aufgaben zeigt. Diese Vielseitigkeit demonstrieren wir anhand von drei verschiedenen Arten von Bilddatensätzen: CLEVR-basierte synthetische Szenen, Diagramme und reale Bilder. (3) Nachhaltige Leistungssteigerung: Wir führen Iterative Self-Play Policy Optimization (Iterative-SPO) ein, einen neuartigen Trainingsalgorithmus, der zwischen Selbstspiel und Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) wechselt. Dadurch wird das häufig auftretende Leistungsplateau bei reinem Selbstspiel-Training gemildert und langfristige Verbesserungen erzielt. Trotz der Verwendung von label-freien Daten erreicht Vision-Zero Spitzenleistungen bei Aufgaben zur Schlussfolgerung, Diagramm-Fragebeantwortung und visuell-zentriertem Verständnis und übertrifft dabei andere auf Annotation basierende Methoden. Modelle und Code wurden unter https://github.com/wangqinsi1/Vision-Zero veröffentlicht.
English
Although reinforcement learning (RL) can effectively enhance the reasoning capabilities of vision-language models (VLMs), current methods remain heavily dependent on labor-intensive datasets that require extensive manual construction and verification, leading to extremely high training costs and consequently constraining the practical deployment of VLMs. To address this challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM self-improvement through competitive visual games generated from arbitrary image pairs. Specifically, Vision-Zero encompasses three main attributes: (1) Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the Spy"-style games, where the models engage in strategic reasoning and actions across multiple roles. Through interactive gameplay, models autonomously generate their training data without human annotation. (2) Gameplay from Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate games from arbitrary images, thereby enhancing the model's reasoning ability across diverse domains and showing strong generalization to different tasks. We demonstrate this versatility using three distinct types of image datasets: CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable Performance Gain: We introduce Iterative Self-Play Policy Optimization (Iterative-SPO), a novel training algorithm that alternates between Self-Play and reinforcement learning with verifiable rewards (RLVR), mitigating the performance plateau often seen in self-play-only training and achieving sustained long-term improvements. Despite using label-free data, Vision-Zero achieves state-of-the-art performance on reasoning, chart question answering, and vision-centric understanding tasks, surpassing other annotation-based methods. Models and code has been released at https://github.com/wangqinsi1/Vision-Zero.
PDF551October 1, 2025