MM-Zero: Modelos de Lenguaje Visual Multimodales de Auto-evolución a Partir de Cero Datos

Resumen

La auto-evolución ha surgido como un paradigma clave para mejorar modelos fundamentales como los Modelos de Lenguaje Grandes (LLM) y los Modelos de Lenguaje Visual (VLM) con mínima intervención humana. Si bien enfoques recientes han demostrado que los agentes LLM pueden auto-evolucionar desde cero con pocos o ningún dato, los VLM introducen una modalidad visual adicional que normalmente requiere al menos algunos datos iniciales, como imágenes, para impulsar el proceso de auto-evolución. En este trabajo, presentamos Multi-model Multimodal Zero (MM-Zero), el primer marco basado en Aprendizaje por Refuerzo (RL) que logra una auto-evolución sin datos para el razonamiento VLM. Trascendiendo configuraciones previas de doble rol (Proponente y Solucionador), MM-Zero introduce un marco de entrenamiento auto-evolutivo multi-rol que comprende tres roles especializados: un Proponente que genera conceptos visuales abstractos y formula preguntas; un Codificador que traduce estos conceptos a código ejecutable (por ejemplo, Python, SVG) para renderizar imágenes visuales; y un Solucionador que realiza razonamiento multimodal sobre el contenido visual generado. Los tres roles se inicializan a partir del mismo modelo base y se entrenan utilizando Optimización de Política Relativa Grupal (GRPO), con mecanismos de recompensa cuidadosamente diseñados que integran retroalimentación de ejecución, verificación visual y equilibrio de dificultad. Nuestros experimentos muestran que MM-Zero mejora el rendimiento del razonamiento VLM en una amplia gama de benchmarks multimodales. MM-Zero establece un camino escalable hacia sistemas multi-modelo auto-evolutivos para modelos multimodales, extendiendo la frontera de la auto-mejora más allá del paradigma convencional de dos modelos.

English

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Modelos de Lenguaje Visual Multimodales de Auto-evolución a Partir de Cero Datos

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Resumen

Support