Vision-Zero: Масштабируемое самоулучшение VLM через стратегическую геймифицированную самоигру
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
September 29, 2025
Авторы: Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
cs.AI
Аннотация
Хотя обучение с подкреплением (RL) может эффективно улучшать способности к рассуждению у моделей, работающих с визуальными и языковыми данными (VLMs), существующие методы по-прежнему сильно зависят от трудоемких наборов данных, требующих значительных усилий для ручного создания и проверки, что приводит к чрезвычайно высоким затратам на обучение и, как следствие, ограничивает практическое применение VLMs. Чтобы решить эту проблему, мы предлагаем Vision-Zero — универсальную структуру, позволяющую VLMs самостоятельно улучшаться через соревновательные визуальные игры, генерируемые из произвольных пар изображений. В частности, Vision-Zero включает три ключевых аспекта: (1) **Фреймворк стратегического самообучения**: Vision-Zero обучает VLMs в играх в стиле "Кто шпион?", где модели участвуют в стратегическом рассуждении и действиях в различных ролях. В процессе интерактивной игры модели автономно генерируют свои обучающие данные без участия человека. (2) **Игры на основе произвольных изображений**: В отличие от существующих игровых фреймворков, Vision-Zero может создавать игры из любых изображений, что улучшает способность модели к рассуждению в различных областях и демонстрирует сильную обобщаемость для разных задач. Мы показываем эту универсальность на трех типах наборов данных: синтетических сценах на основе CLEVR, графиках и реальных изображениях. (3) **Устойчивое улучшение производительности**: Мы представляем Iterative Self-Play Policy Optimization (Iterative-SPO) — новый алгоритм обучения, который чередует самообучение и обучение с подкреплением с проверяемыми наградами (RLVR), устраняя плато производительности, часто наблюдаемое при обучении только через самообучение, и обеспечивая долгосрочные улучшения. Несмотря на использование данных без меток, Vision-Zero достигает наилучших результатов в задачах рассуждения, ответов на вопросы по графикам и визуального понимания, превосходя другие методы, основанные на аннотациях. Модели и код доступны по адресу https://github.com/wangqinsi1/Vision-Zero.
English
Although reinforcement learning (RL) can effectively enhance the reasoning
capabilities of vision-language models (VLMs), current methods remain heavily
dependent on labor-intensive datasets that require extensive manual
construction and verification, leading to extremely high training costs and
consequently constraining the practical deployment of VLMs. To address this
challenge, we propose Vision-Zero, a domain-agnostic framework enabling VLM
self-improvement through competitive visual games generated from arbitrary
image pairs. Specifically, Vision-Zero encompasses three main attributes: (1)
Strategic Self-Play Framework: Vision-Zero trains VLMs in "Who Is the
Spy"-style games, where the models engage in strategic reasoning and actions
across multiple roles. Through interactive gameplay, models autonomously
generate their training data without human annotation. (2) Gameplay from
Arbitrary Images: Unlike existing gamified frameworks, Vision-Zero can generate
games from arbitrary images, thereby enhancing the model's reasoning ability
across diverse domains and showing strong generalization to different tasks. We
demonstrate this versatility using three distinct types of image datasets:
CLEVR-based synthetic scenes, charts, and real-world images. (3) Sustainable
Performance Gain: We introduce Iterative Self-Play Policy Optimization
(Iterative-SPO), a novel training algorithm that alternates between Self-Play
and reinforcement learning with verifiable rewards (RLVR), mitigating the
performance plateau often seen in self-play-only training and achieving
sustained long-term improvements. Despite using label-free data, Vision-Zero
achieves state-of-the-art performance on reasoning, chart question answering,
and vision-centric understanding tasks, surpassing other annotation-based
methods. Models and code has been released at
https://github.com/wangqinsi1/Vision-Zero.