ChatPaper.aiChatPaper

Uni-MoE-2.0-Omni: 고급 MoE, 훈련 및 데이터를 통한 언어 중심의 범모달 대규모 모델 확장

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

November 16, 2025
저자: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

초록

라이치(Lychee) 패밀리의 Uni-MoE 2.0을 소개합니다. 완전 오픈소스인 범모달 대규모 모델(OLM)로서, 언어 중심의 멀티모달 이해, 추론 및 생성 능력에서 라이치 Uni-MoE 시리즈를 크게 발전시켰습니다. Qwen2.5-7B 조밀 아키텍처를 기반으로 세 가지 핵심 기여를 통해 Uni-MoE-2.0-Omni를 처음부터 구축했습니다: 동적 용량 전문가 혼합(MoE) 설계, 반복적 강화 전략으로 강화된 점진적 학습 전략, 그리고 신중하게 구성된 멀티모달 데이터 매칭 기법입니다. 이 모델은 범모달 이해는 물론 이미지, 텍스트, 음성 생성을 수행할 수 있습니다. 아키텍처 측면에서, 우리의 새로운 MoE 프레임워크는 공유 전문가, 라우팅 전문가, 널 전문가를 활용하여 10가지 교차 모달 입력에 대한 계산 효율성과 성능을 균형 있게 조정하며, Omni-Modality 3D RoPE는 자기 주의 계층에서 시공간적 교차 모달 정렬을 보장합니다. 학습 측면에서는 교차 모달 사전 학습 후, 균형 잡힌 데이터 구성과 반복적 GSPO-DPO 방법으로 강화되어 RL 학습을 안정화하고 추론 능력을 향상시키는, 모달리티 특화 전문가를 활성화하는 점진적 지도 미세 조정 전략을 사용합니다. 데이터 측면에서, 약 750억 토큰의 오픈소스 멀티모달 데이터로 학습된 기본 모델은 특수 음성 및 이미지 생성 토큰을 갖추어 언어적 단서를 바탕으로 출력을 조절하며 이러한 생성 과제를 학습할 수 있습니다. 85개 벤치마크에 걸친 광범위한 평가 결과, 우리 모델은 선도적인 OLM 대비 SOTA 또는 매우 경쟁력 있는 성능을 달성하며, 76개 벤치마크 중 50개 이상에서 Qwen2.5-Omni(1.2T 토큰으로 학습)를 능가하는 것으로 나타났습니다. 주요 강점은 비디오 이해(8개 기준 평균 +7%), 범모달 이해(4개 기준 평균 +7%), 시청각 추론(평균 +4%)을 포함합니다. 또한 장형 음성 처리(WER 4.2% 감소)를 발전시켰고, 5가지 메트릭에 걸친 저수준 이미지 처리 및 제어 가능한 생성 분야에서도 선두를 달리고 있습니다.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
PDF1013December 1, 2025