MM-Zero: Саморазвивающиеся мультимодальные визуально-языковые модели с нулевыми данными

Аннотация

Саморазвитие стало ключевой парадигмой для улучшения базовых моделей, таких как большие языковые модели (LLM) и визуально-языковые модели (VLM), при минимальном вмешательстве человека. Хотя современные подходы показали, что агенты на основе LLM могут саморазвиваться с нуля практически без данных, VLM вводят дополнительную визуальную модальность, которая обычно требует хотя бы некоторых исходных данных (например, изображений) для запуска процесса саморазвития. В данной работе мы представляем MM-Zero — первую основанную на обучении с подкреплением (RL) систему, достигающую саморазвития VLM-рассуждений без исходных данных. Выходя за рамки предыдущих двухролевых конфигураций (Предлагающий и Решающий), MM-Zero вводит многоролевую систему саморазвивающегося обучения, включающую три специализированные роли: Предлагающий, который генерирует абстрактные визуальные концепции и формулирует вопросы; Кодер, который преобразует эти концепции в исполняемый код (например, Python, SVG) для рендеринга визуальных изображений; и Решающий, который выполняет мультимодальные рассуждения над сгенерированным визуальным контентом. Все три роли инициализируются из одной базовой модели и обучаются с использованием оптимизации групповой относительной политики (GRPO) с тщательно разработанными механизмами вознаграждения, интегрирующими обратную связь по исполнению, визуальную верификацию и балансировку сложности. Наши эксперименты показывают, что MM-Zero повышает производительность VLM-рассуждений на широком спектре мультимодальных тестов. MM-Zero открывает масштабируемый путь к созданию саморазвивающихся многомодельных систем для мультимодальных моделей, расширяя границы самосовершенствования за пределы традиционной двухмодельной парадигмы.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Саморазвивающиеся мультимодальные визуально-языковые модели с нулевыми данными

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Аннотация

Support