MM-Zero: Modelli Linguistici Visivi Multi-Modello ad Auto-Evoluzione Partendo da Zero Dati

Abstract

L'auto-evoluzione è emersa come paradigma chiave per migliorare i modelli fondazionali come i Large Language Model (LLM) e i Vision Language Model (VLM) con un intervento umano minimo. Sebbene approcci recenti abbiano dimostrato che agenti basati su LLM possono auto-evolversi da zero con dati scarsi o nulli, i VLM introducono una modalità visiva aggiuntiva che tipicamente richiede almeno alcuni dati iniziali, come immagini, per avviare il processo di auto-evoluzione. In questo lavoro, presentiamo Multi-model Multimodal Zero (MM-Zero), il primo framework basato su Reinforcement Learning (RL) in grado di raggiungere un'auto-evoluzione senza dati per il ragionamento VLM. Andando oltre le precedenti configurazioni a doppio ruolo (Proponente e Risolutore), MM-Zero introduce un framework di addestramento auto-evolutivo multi-ruolo che comprende tre ruoli specializzati: un Proponente che genera concetti visivi astratti e formula domande; un Programmatore che traduce questi concetti in codice eseguibile (ad esempio, Python, SVG) per generare immagini visive; e un Risolutore che esegue ragionamenti multimodali sul contenuto visivo generato. Tutti e tre i ruoli sono inizializzati dallo stesso modello base e addestrati utilizzando l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO), con meccanismi di ricompensa accuratamente progettati che integrano feedback di esecuzione, verifica visiva e bilanciamento della difficoltà. I nostri esperimenti mostrano che MM-Zero migliora le prestazioni di ragionamento VLM su un'ampia gamma di benchmark multimodali. MM-Zero stabilisce un percorso scalabile verso sistemi multi-modello auto-evolutivi per modelli multimodali, estendendo la frontiera dell'auto-miglioramento oltre il convenzionale paradigma a due modelli.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Modelli Linguistici Visivi Multi-Modello ad Auto-Evoluzione Partendo da Zero Dati

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Abstract

Support