ChatPaper.aiChatPaper

Uni-MoE-2.0-Omni : Mise à l'échelle d'un grand modèle omnimodal centré sur le langage avec des techniques avancées de MoE, d'entraînement et de données

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

November 16, 2025
papers.authors: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

papers.abstract

Nous présentons Uni-MoE 2.0 de la famille Lychee. En tant que grand modèle omnimodal (OLM) entièrement open-source, il fait progresser considérablement la série Uni-MoE de Lychee dans la compréhension, le raisonnement et la génération multimodale centrés sur le langage. En nous appuyant sur l'architecture dense Qwen2.5-7B, nous construisons Uni-MoE-2.0-Omni à partir de zéro grâce à trois contributions principales : une conception MoE (Mixture-of-Experts) à capacité dynamique, une stratégie d'entraînement progressive renforcée par une stratégie de renforcement itérative, et une technique soigneusement élaborée d'appariement de données multimodales. Le modèle est capable de compréhension omnimodale, ainsi que de génération d'images, de texte et de parole. Sur le plan architectural, notre nouveau framework MoE équilibre l'efficacité computationnelle et les capacités pour 10 entrées cross-modales en utilisant des experts partagés, routés et nuls, tandis que notre RoPE 3D Omni-Modalité assure un alignement spatio-temporel cross-modal dans la couche d'auto-attention. Pour l'entraînement, après un pré-entraînement cross-modal, nous utilisons une stratégie de fine-tuning supervisé progressif qui active des experts spécifiques à une modalité, renforcée par une composition de données équilibrée et une méthode GSPO-DPO itérative pour stabiliser l'entraînement par apprentissage par renforcement et améliorer le raisonnement. Concernant les données, le modèle de base, entraîné sur environ 75 milliards de tokens de données multimodales open-source, est équipé de tokens spéciaux pour la génération de parole et d'images, lui permettant d'apprendre ces tâches génératives en conditionnant ses sorties sur des indices linguistiques. Une évaluation approfondie sur 85 benchmarks démontre que notre modèle atteint des performances à l'état de l'art (SOTA) ou très compétitives par rapport aux principaux OLMs, surpassant Qwen2.5-Omni (entraîné avec 1,2 billion de tokens) sur plus de 50 des 76 benchmarks. Les points forts incluent la compréhension vidéo (+7% en moyenne sur 8 benchmarks), la compréhension omnimodale (+7% en moyenne sur 4 benchmarks) et le raisonnement audiovisuel (+4%). Il fait également progresser le traitement de la parole de longue durée (réduction du WER de 4,2%) et mène dans le traitement d'image de bas niveau et la génération contrôlée sur 5 métriques.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
PDF1013December 1, 2025