Uni-MoE-2.0-Omni: Skalierung eines sprachzentrierten omnimodalen Großmodells durch fortschrittliches MoE, Training und Daten
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
November 16, 2025
papers.authors: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI
papers.abstract
Wir stellen Uni-MoE 2.0 aus der Lychee-Familie vor. Als vollständig quelloffenes omnimodales Großmodell (OLM) erweitert es die Fähigkeiten der Uni-MoE-Reihe von Lychee maßgeblich im sprachzentrierten multimodalen Verstehen, Schließen und Generieren. Basierend auf der dichten Qwen2.5-7B-Architektur entwickeln wir Uni-MoE-2.0-Omni von Grund auf durch drei Kernbeiträge: ein Dynamic-Capacity Mixture-of-Experts (MoE)-Design, eine progressive Trainingsstrategie, verstärkt durch eine iterative Reinforcement-Strategie, sowie eine sorgfältig kuratierte multimodale Datenabgleich-Technik. Das Modell beherrscht omnimodales Verstehen sowie die Generierung von Bildern, Text und Sprache. Architektonisch balanciert unser neues MoE-Framework mittels gemeinsamer, gerouteter und inaktiver Experten Recheneffizienz und Leistungsfähigkeit für 10 cross-modale Eingaben, während unser Omni-Modality 3D RoPE räumlich-zeitliche Cross-Modalitäts-Ausrichtung in der Self-Attention-Schicht gewährleistet. Beim Training nutzen wir nach cross-modaler Vorverarbeitung eine progressive, überwachte Feinabstimmungsstrategie, die modalitiespezifische Experten aktiviert und durch ausgewogene Datenkomposition sowie eine iterative GSPO-DPO-Methode verstärkt wird, um RL-Training zu stabilisieren und das Schließen zu verbessern. Datenseitig ist das Basismodell, trainiert mit circa 75B Tokens quelloffener multimodaler Daten, mit speziellen Sprach- und Bildgenerierungs-Tokens ausgestattet, die es ermöglichen, diese Generierungsaufgaben durch Konditionierung seiner Ausgaben auf sprachliche Hinweise zu erlernen. Umfangreiche Evaluierungen über 85 Benchmarks zeigen, dass unser Modell state-of-the-art oder höchst wettbewerbsfähige Leistungen im Vergleich zu führenden OLMs erzielt und Qwen2.5-Omni (trainiert mit 1,2T Tokens) in über 50 von 76 Benchmarks übertrifft. Zu den zentralen Stärken zählen Videoverstehen (+7 % im Durchschnitt über 8 Benchmarks), omnimodales Verstehen (+7 % im Durchschnitt über 4 Benchmarks) sowie audiovisuelles Schließen (+4 %). Es verbessert ebenfalls die Verarbeitung langandauernder Sprache (Reduktion der WER um 4,2 %) und führt bei Low-Level-Bildverarbeitung und kontrollierbarer Generierung über 5 Metriken an.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.