MM-Zero : Modèles vision-langage multimodales auto-évolutifs à partir de zéro donnée

Résumé

L'auto-évolution est devenue un paradigme clé pour améliorer les modèles fondateurs tels que les grands modèles de langage (LLM) et les modèles de vision et langage (VLM) avec une intervention humaine minimale. Si des approches récentes ont montré que des agents LLM peuvent s'auto-évoluer à partir de zéro avec peu ou pas de données, les VLM introduisent une modalité visuelle supplémentaire qui nécessite typiquement au moins quelques données d'amorçage, telles que des images, pour initier le processus d'auto-évolution. Dans ce travail, nous présentons Multi-model Multimodal Zero (MM-Zero), le premier cadre basé sur l'apprentissage par renforcement (RL) permettant une auto-évolution sans données pour le raisonnement des VLM. Allant au-delà des configurations antérieures à double rôle (Proposant et Solveur), MM-Zero introduit un cadre d'entraînement auto-évolutif multi-rôles comprenant trois rôles spécialisés : un Proposant qui génère des concepts visuels abstraits et formule des questions ; un Codeur qui traduit ces concepts en code exécutable (par exemple, Python, SVG) pour générer des images visuelles ; et un Solveur qui effectue un raisonnement multimodal sur le contenu visuel généré. Les trois rôles sont initialisés à partir du même modèle de base et entraînés à l'aide de l'Optimisation de Politique Relative par Groupe (GRPO), avec des mécanismes de récompense soigneusement conçus qui intègrent un retour d'exécution, une vérification visuelle et un équilibrage de la difficulté. Nos expériences montrent que MM-Zero améliore les performances de raisonnement des VLM sur un large éventail de benchmarks multimodaux. MM-Zero établit une voie évolutive vers des systèmes multi-modèles auto-évolutifs pour les modèles multimodaux, étendant la frontière de l'auto-amélioration au-delà du paradigme conventionnel à deux modèles.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero : Modèles vision-langage multimodales auto-évolutifs à partir de zéro donnée

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Résumé

Support