MM-Zero: Modelos de Linguagem Visual Multimodal de Auto-Evolução a Partir de Dados Zero

Resumo

A auto-evolução emergiu como um paradigma fundamental para aprimorar modelos de base, como os Grandes Modelos de Linguagem (LLMs) e os Modelos de Linguagem Visual (VLMs), com intervenção humana mínima. Embora abordagens recentes tenham demonstrado que agentes baseados em LLMs podem se auto-evoluir do zero com poucos ou nenhum dado, os VLMs introduzem uma modalidade visual adicional que normalmente requer pelo menos alguns dados iniciais, como imagens, para iniciar o processo de auto-evolução. Neste trabalho, apresentamos o Multi-model Multimodal Zero (MM-Zero), o primeiro *framework* baseado em Aprendizado por Reforço (RL) a alcançar a auto-evolução sem dados iniciais (*zero-data*) para o raciocínio de VLMs. Indo além das configurações anteriores de dupla função (Propositor e Solucionador), o MM-Zero introduz um *framework* de treinamento de auto-evolução com múltiplas funções, composto por três funções especializadas: um Propositor, que gera conceitos visuais abstratos e formula perguntas; um Codificador, que traduz esses conceitos em código executável (por exemplo, Python, SVG) para renderizar imagens visuais; e um Solucionador, que realiza raciocínio multimodal sobre o conteúdo visual gerado. Todas as três funções são inicializadas a partir do mesmo modelo base e treinadas usando a Otimização de Política Relativa de Grupo (GRPO), com mecanismos de recompensa cuidadosamente projetados que integram *feedback* de execução, verificação visual e balanceamento de dificuldade. Nossos experimentos mostram que o MM-Zero melhora o desempenho do raciocínio de VLMs em uma ampla gama de *benchmarks* multimodais. O MM-Zero estabelece um caminho escalável para sistemas multi-modelo de auto-evolução para modelos multimodais, estendendo a fronteira da auto-melhoria para além do paradigma convencional de dois modelos.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Modelos de Linguagem Visual Multimodal de Auto-Evolução a Partir de Dados Zero

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Resumo

Support