Uni-MoE-2.0-Omni: Het Opschalen van een Taalgecentreerd Omnimodaal Groot Model met Geavanceerde MoE, Training en Gegevens
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
November 16, 2025
Auteurs: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI
Samenvatting
Wij presenteren Uni-MoE 2.0 uit de Lychee-familie. Als een volledig open-source omnimodaal groot model (OLM) zet het de Uni-MoE-reeks van Lychee aanzienlijk vooruit in taalgecentreerd multimodaal begrip, redeneren en genereren. Gebaseerd op de Qwen2.5-7B dichte architectuur, bouwen we Uni-MoE-2.0-Omni vanaf de grond op via drie kernbijdragen: een dynamische-capaciteit Mixture-of-Experts (MoE) ontwerp, een progressieve trainingsstrategie versterkt met een iteratieve reinforcementstrategie, en een zorgvuldig samengestelde multimodale data-matchingtechniek. Het model is in staat tot omnimodaal begrip, evenals het genereren van beelden, tekst en spraak. Architecturaal brengt ons nieuwe MoE-raamwerk een balans tussen computationele efficiëntie en capaciteit voor 10 cross-modale inputs door gebruik te maken van gedeelde, gerouteerde en nul-experts, terwijl onze Omni-Modaliteit 3D RoPE ruimtelijk-temporele cross-modale alignatie in de self-attention laag waarborgt. Voor de training gebruiken we, na cross-modale pretraining, een progressieve supervised fine-tuning strategie die modaliteit-specifieke experts activeert, versterkt door gebalanceerde datasamenstelling en een iteratieve GSPO-DPO methode om RL-training te stabiliseren en redeneren te verbeteren. Qua data is het basismodel, getraind op ongeveer 75B tokens open-source multimodale data, uitgerust met speciale tokens voor spraak- en beeldgeneratie, waardoor het deze generatieve taken kan leren door zijn outputs te conditioneren op linguïstische cues. Uitgebreide evaluatie over 85 benchmarks toont aan dat ons model state-of-the-art (SOTA) of zeer concurrerende prestaties behaalt ten opzichte van toonaangevende OLMs, en Qwen2.5-Omni (getraind met 1.2T tokens) overtreft op meer dan 50 van de 76 benchmarks. Belangrijke sterke punten zijn videobegrip (+7% gemiddeld over 8), omnimodaal begrip (+7% gemiddeld over 4), en audiovisueel redeneren (+4%). Het model boekt ook vooruitgang in langere spraakverwerking (vermindering WER met 4.2%) en leidt in low-level beeldverwerking en controleerbare generatie over 5 metrieken.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.