Vision-Zero: Autoaperfeiçoamento Escalável de VLM por meio de Autojogo Estratégico Gamificado
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
September 29, 2025
Autores: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI
Resumo
Embora o aprendizado por reforço (RL) possa aprimorar efetivamente as capacidades de raciocínio de modelos visão-linguagem (VLMs), os métodos atuais ainda dependem fortemente de conjuntos de dados intensivos em mão de obra que exigem construção e verificação manual extensiva, resultando em custos de treinamento extremamente altos e, consequentemente, limitando a implantação prática dos VLMs. Para enfrentar esse desafio, propomos o Vision-Zero, um framework independente de domínio que permite a auto-melhoria dos VLMs por meio de jogos visuais competitivos gerados a partir de pares de imagens arbitrários. Especificamente, o Vision-Zero engloba três atributos principais: (1) Framework de Autojogo Estratégico: o Vision-Zero treina VLMs em jogos no estilo "Quem é o Espião", onde os modelos se envolvem em raciocínio e ações estratégicas em múltiplos papéis. Por meio da interatividade do jogo, os modelos geram autonomamente seus dados de treinamento sem anotação humana. (2) Jogabilidade a partir de Imagens Arbitrárias: Diferente de frameworks gamificados existentes, o Vision-Zero pode gerar jogos a partir de imagens arbitrárias, aprimorando assim a capacidade de raciocínio do modelo em diversos domínios e demonstrando forte generalização para diferentes tarefas. Demonstramos essa versatilidade utilizando três tipos distintos de conjuntos de dados de imagens: cenas sintéticas baseadas em CLEVR, gráficos e imagens do mundo real. (3) Ganho de Desempenho Sustentável: Introduzimos o Iterative Self-Play Policy Optimization (Iterative-SPO), um novo algoritmo de treinamento que alterna entre Autojogo e aprendizado por reforço com recompensas verificáveis (RLVR), mitigando o platô de desempenho frequentemente observado no treinamento apenas com autojogo e alcançando melhorias sustentáveis a longo prazo. Apesar de utilizar dados sem rótulos, o Vision-Zero alcança desempenho de ponta em tarefas de raciocínio, resposta a perguntas sobre gráficos e compreensão centrada em visão, superando outros métodos baseados em anotação. Modelos e código foram disponibilizados em https://github.com/wangqinsi1/Vision-Zero.
English
Although reinforcement learning (RL) can effectively enhance the reasoning
capabilities of vision-language models (VLMs), current methods remain heavily
dependent on labor-intensive datasets that require extensive manual
construction and verification, leading to extremely high training costs and
consequently constraining the practical deployment of VLMs. To address this
challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM
self-improvement through competitive visual games generated from arbitrary
image pairs. Specifically, Vision-Zero encompasses three main attributes: (1)
Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the
Spy"-style games, where the models engage in strategic reasoning and actions
across multiple roles. Through interactive gameplay, models autonomously
generate their training data without human annotation. (2) Gameplay from
Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate
games from arbitrary images, thereby enhancing the model's reasoning ability
across diverse domains and showing strong generalization to different tasks. We
demonstrate this versatility using three distinct types of image datasets:
CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable
Performance Gain: We introduce Iterative Self-Play Policy Optimization
(Iterative-SPO), a novel training algorithm that alternates between Self-Play
and reinforcement learning with verifiable rewards (RLVR), mitigating the
performance plateau often seen in self-play-only training and achieving
sustained long-term improvements. Despite using label-free data, Vision-Zero
achieves state-of-the-art performance on reasoning, chart question answering,
and vision-centric understanding tasks, surpassing other annotation-based
methods. Models and code has been released at
https://github.com/wangqinsi1/Vision-Zero.