MM-Zero: Zelf-evoluerende multimodale vision-language-modellen zonder initiële data

Samenvatting

Zelf-evolutie is naar voren gekomen als een belangrijk paradigma om fundamentele modellen, zoals Large Language Models (LLM's) en Vision Language Models (VLM's), te verbeteren met minimale menselijke tussenkomst. Hoewel recente benaderingen hebben aangetoond dat LLM-agents zichzelf vanaf nul kunnen evolueren met weinig tot geen data, brengen VLM's een extra visuele modaliteit met zich mee die typisch op zijn minst wat startdata, zoals afbeeldingen, vereist om het zelf-evolutieproces op gang te brengen. In dit werk presenteren we Multi-model Multimodal Zero (MM-Zero), het eerste op reinforcement learning (RL) gebaseerde raamwerk dat zero-data zelf-evolutie voor VLM-redenering bereikt. Voorbijgaand aan eerdere opstellingen met dubbele rollen (Voorsteller en Oplosser), introduceert MM-Zero een multi-rol zelf-evoluerend trainingsraamwerk bestaande uit drie gespecialiseerde rollen: een Voorsteller die abstracte visuele concepten genereert en vragen formuleert; een Programmeur die deze concepten vertaalt naar uitvoerbare code (bijv. Python, SVG) om visuele afbeeldingen te renderen; en een Oplosser die multimodale redenering uitvoert over de gegenereerde visuele inhoud. Alle drie de rollen worden geïnitialiseerd vanuit hetzelfde basismodel en getraind met Group Relative Policy Optimization (GRPO), met zorgvuldig ontworpen beloningsmechanismen die uitvoeringsfeedback, visuele verificatie en moeilijkheidsbalans integreren. Onze experimenten tonen aan dat MM-Zero de redeneerprestaties van VLM's verbetert over een breed scala aan multimodale benchmarks. MM-Zero vestigt een schaalbare weg naar zelf-evoluerende multi-model systemen voor multimodale modellen, en breidt de grenzen van zelfverbetering uit voorbij het conventionele twee-model paradigma.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Zelf-evoluerende multimodale vision-language-modellen zonder initiële data

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Samenvatting

Support