MM-Zero: 제로 데이터에서 자가 진화하는 멀티 모델 비전 언어 모델
MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
March 10, 2026
저자: Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu
cs.AI
초록
자기 진화(self-evolving)는 대규모 언어 모델(LLM) 및 시각 언어 모델(VLM)과 같은 기초 모델을 최소한의 인간 개입으로 향상시키는 핵심 패러다임으로 부상했습니다. 최근 접근법들은 LLM 에이전트가 데이터 없이 또는 거의 없는 상태에서 무(無)에서부터 자기 진화할 수 있음을 입증했지만, VLM은 추가적인 시각 양식을 도입하여 일반적으로 이미지와 같은 최소한의 시드 데이터가 자기 진화 과정을 시작하는 데 필요합니다. 본 연구에서는 VLM 추론을 위한 제로 데이터(zero-data) 자기 진화를 달성하는 최초의 강화학습 기반 프레임워크인 MM-Zero(Multi-model Multimodal Zero)를 제시합니다. 기존의 이중 역할(제안자와 해결사) 설정을 넘어, MM-Zero는 세 가지 전문 역할로 구성된 다중 역할 자기 진화 훈련 프레임워크를 도입합니다: 추상적인 시각 개념을 생성하고 질문을 구성하는 제안자(Proposer), 이러한 개념을 실행 가능한 코드(Python, SVG 등)로 변환하여 시각적 이미지를 렌더링하는 코더(Coder), 그리고 생성된 시각 콘텐츠에 대해 다중 양식 추론을 수행하는 해결사(Solver). 이 세 역할은 모두 동일한 기본 모델에서 초기화되며 실행 피드백, 시각적 검증, 난이도 균형을 통합한 신중하게 설계된 보상 메커니즘과 함께 그룹 상대 정책 최적화(GRPO)를 사용하여 훈련됩니다. 우리의 실험 결과는 MM-Zero가 다양한 다중 양식 벤치마크에서 VLM 추론 성능을 향상시킴을 보여줍니다. MM-Zero는 다중 양식 모델을 위한 자기 진화 다중 모델 시스템으로 확장 가능한 경로를确立하며, 기존의 이중 모델 패러다임을 넘어 자기 개선의 최전선을 확장합니다.
English
Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.