MM-Zero: Selbst-evolvierende multimodale Vision-Language-Modelle ohne Ausgangsdaten

Zusammenfassung

Selbstevolution hat sich als zentrales Paradigma etabliert, um fundamentale Modelle wie Large Language Models (LLMs) und Vision Language Models (VLMs) mit minimalem menschlichem Eingriff zu verbessern. Während neuere Ansätze gezeigt haben, dass LLM-Agenten nahezu ohne Daten von Grund auf selbst evolvieren können, führt die zusätzliche visuelle Modalität von VLMs typischerweise die Notwendigkeit ein, zumindest einige Startdaten, wie Bilder, zum Anstoßen des Selbstevolutionsprozesses zu benötigen. In dieser Arbeit stellen wir Multi-model Multimodal Zero (MM-Zero) vor, den ersten RL-basierten Rahmen, der eine Null-Daten-Selbstevolution für das VLM-Schlussfolgern erreicht. Über bisherige Zwei-Rollen-Setups (Vorschlagender und Lösender) hinausgehend, führt MM-Zero einen Multi-Rollen-Selbstevolutionstrainingsrahmen ein, der drei spezialisierte Rollen umfasst: einen *Vorschlagenden*, der abstrakte visuelle Konzepte generiert und Fragen formuliert; einen *Programmierer*, der diese Konzepte in ausführbaren Code (z.B. Python, SVG) übersetzt, um visuelle Bilder zu erzeugen; und einen *Lösenden*, der multimodales Reasoning über den generierten visuellen Inhalt durchführt. Alle drei Rollen werden aus demselben Basismodell initialisiert und mit Group Relative Policy Optimization (GRPO) trainiert, wobei sorgfältig gestaltete Belohnungsmechanismen zur Anwendung kommen, die Ausführungsfeedback, visuelle Verifikation und Schwierigkeitsabgleich integrieren. Unsere Experimente zeigen, dass MM-Zero die Leistung von VLMs beim Schlussfolgern über eine breite Palette multimodaler Benchmarks hinweg verbessert. MM-Zero ebnet einen skalierbaren Weg hin zu sich selbst evolvierenden Multi-Modell-Systemen für multimodale Modelle und erweitert die Grenzen der Selbstverbesserung über das konventionelle Zwei-Modell-Paradigma hinaus.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Selbst-evolvierende multimodale Vision-Language-Modelle ohne Ausgangsdaten

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Zusammenfassung

Support