ChatPaper.aiChatPaper

Uni-MoE-2.0-Omni: Scalabilità di un Modello Large Omnimodale Centrato sul Linguaggio con MoE Avanzato, Addestramento e Dati

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

November 16, 2025
Autori: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

Abstract

Presentiamo Uni-MoE 2.0 della famiglia Lychee. In quanto modello large omnimodale (OLM) completamente open-source, avanza significativamente la serie Uni-MoE di Lychee nella comprensione, ragionamento e generazione multimodale incentrata sul linguaggio. Basandoci sull'architettura densa Qwen2.5-7B, costruiamo Uni-MoE-2.0-Omni da zero attraverso tre contributi fondamentali: un design Mixture-of-Experts (MoE) a capacità dinamica, una strategia di training progressivo potenziata con una strategia di reinforcement iterativa, e una tecnica accuratamente curata di abbinamento dati multimodali. Il modello è capace di comprensione omnimodale, nonché di generare immagini, testo e parlato. Architetturalmente, il nostro nuovo framework MoE bilancia efficienza computazionale e capacità per 10 input cross-modali utilizzando esperti condivisi, instradati e nulli, mentre la nostra Omni-Modality 3D RoPE assicura un allineamento spazio-temporale cross-modale nel livello di self-attention. Per il training, dopo il pre-training cross-modale, utilizziamo una strategia di fine-tuning supervisionato progressivo che attiva esperti specifici per modalità ed è potenziata da una composizione dati bilanciata e da un metodo GSPO-DPO iterativo per stabilizzare il training RL e migliorare il ragionamento. Dal punto di vista dei dati, il modello base, addestrato su circa 75B token di dati multimodali open-source, è equipaggiato con token speciali per la generazione di parlato e immagini, permettendogli di apprendere questi compiti generativi condizionando i suoi output su indizi linguistici. Una valutazione estesa su 85 benchmark dimostra che il nostro modello raggiunge prestazioni SOTA o altamente competitive rispetto ai principali OLM, superando Qwen2.5-Omni (addestrato con 1.2T di token) su oltre 50 dei 76 benchmark. I punti di forza chiave includono la comprensione video (+7% media su 8 benchmark), la comprensione omnimodale (+7% media su 4 benchmark) e il ragionamento audiovisivo (+4%). Avanza inoltre nell'elaborazione di parlato di forma lunga (riducendo il WER del 4.2%) e guida in 5 metriche relative all'elaborazione immagini di basso livello e alla generazione controllabile.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
PDF1013December 1, 2025