Visión-Cero: Mejora Escalable de VLM mediante Autojuego Estratégico Gamificado
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
September 29, 2025
Autores: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI
Resumen
Aunque el aprendizaje por refuerzo (RL) puede mejorar eficazmente las capacidades de razonamiento de los modelos de visión y lenguaje (VLMs), los métodos actuales siguen dependiendo en gran medida de conjuntos de datos intensivos en mano de obra que requieren una construcción y verificación manual extensa, lo que conlleva costos de entrenamiento extremadamente altos y, en consecuencia, limita el despliegue práctico de los VLMs. Para abordar este desafío, proponemos Vision-Zero, un marco agnóstico de dominio que permite la auto-mejora de los VLMs a través de juegos visuales competitivos generados a partir de pares de imágenes arbitrarios. Específicamente, Vision-Zero abarca tres atributos principales: (1) Marco de Autojuego Estratégico: Vision-Zero entrena a los VLMs en juegos al estilo "¿Quién es el Espía?", donde los modelos participan en razonamientos y acciones estratégicas en múltiples roles. A través del juego interactivo, los modelos generan automáticamente sus datos de entrenamiento sin necesidad de anotación humana. (2) Juegos a partir de Imágenes Arbitrarias: A diferencia de los marcos gamificados existentes, Vision-Zero puede generar juegos a partir de imágenes arbitrarias, mejorando así la capacidad de razonamiento del modelo en diversos dominios y mostrando una fuerte generalización en diferentes tareas. Demostramos esta versatilidad utilizando tres tipos distintos de conjuntos de datos de imágenes: escenas sintéticas basadas en CLEVR, gráficos e imágenes del mundo real. (3) Ganancia Sostenible de Rendimiento: Introducimos la Optimización de Políticas de Autojuego Iterativo (Iterative-SPO), un novedoso algoritmo de entrenamiento que alterna entre Autojuego y aprendizaje por refuerzo con recompensas verificables (RLVR), mitigando la meseta de rendimiento común en el entrenamiento basado únicamente en autojuego y logrando mejoras sostenidas a largo plazo. A pesar de utilizar datos sin etiquetas, Vision-Zero alcanza un rendimiento de vanguardia en tareas de razonamiento, respuesta a preguntas sobre gráficos y comprensión centrada en la visión, superando a otros métodos basados en anotaciones. Los modelos y el código han sido publicados en https://github.com/wangqinsi1/Vision-Zero.
English
Although reinforcement learning (RL) can effectively enhance the reasoning
capabilities of vision-language models (VLMs), current methods remain heavily
dependent on labor-intensive datasets that require extensive manual
construction and verification, leading to extremely high training costs and
consequently constraining the practical deployment of VLMs. To address this
challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM
self-improvement through competitive visual games generated from arbitrary
image pairs. Specifically, Vision-Zero encompasses three main attributes: (1)
Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the
Spy"-style games, where the models engage in strategic reasoning and actions
across multiple roles. Through interactive gameplay, models autonomously
generate their training data without human annotation. (2) Gameplay from
Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate
games from arbitrary images, thereby enhancing the model's reasoning ability
across diverse domains and showing strong generalization to different tasks. We
demonstrate this versatility using three distinct types of image datasets:
CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable
Performance Gain: We introduce Iterative Self-Play Policy Optimization
(Iterative-SPO), a novel training algorithm that alternates between Self-Play
and reinforcement learning with verifiable rewards (RLVR), mitigating the
performance plateau often seen in self-play-only training and achieving
sustained long-term improvements. Despite using label-free data, Vision-Zero
achieves state-of-the-art performance on reasoning, chart question answering,
and vision-centric understanding tasks, surpassing other annotation-based
methods. Models and code has been released at
https://github.com/wangqinsi1/Vision-Zero.