Uni-MoE-2.0-Omni: Escalonando um Modelo Grande Omnimodal Centrado na Linguagem com MoE Avançado, Treinamento e Dados
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
November 16, 2025
Autores: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI
Resumo
Apresentamos o Uni-MoE 2.0 da família Lychee. Como um modelo grande omnimodal (OLM) totalmente de código aberto, ele avança substancialmente a série Uni-MoE da Lychee na compreensão, raciocínio e geração multimodal centrados em linguagem. Com base na arquitetura densa Qwen2.5-7B, construímos o Uni-MoE-2.0-Omni desde o zero através de três contribuições principais: um design dinâmico de Mistura de Especialistas (MoE), uma estratégia de treino progressivo aprimorada com uma estratégia iterativa de reforço e uma técnica criteriosa de correspondência de dados multimodal. É capaz de compreensão omnimodal, bem como de gerar imagens, texto e fala. Arquitetonicamente, a nossa nova estrutura MoE equilibra eficiência computacional e capacidade para 10 entradas cross-modais usando especialistas partilhados, encaminhados e nulos, enquanto a nossa Omni-Modalidade 3D RoPE garante o alinhamento espaço-temporal cross-modal na camada de self-attention. Para o treino, após o pré-treino cross-modal, usamos uma estratégia de afinação supervisionada progressiva que ativa especialistas específicos por modalidade e é aprimorada por uma composição equilibrada de dados e um método iterativo GSPO-DPO para estabilizar o treino de RL e melhorar o raciocínio. Em termos de dados, o modelo base, treinado com aproximadamente 75 mil milhões de tokens de dados multimodais de código aberto, está equipado com tokens especiais de geração de fala e imagem, permitindo-lhe aprender estas tarefas generativas condicionando as suas saídas em pistas linguísticas. Uma avaliação extensa em 85 benchmarks demonstra que o nosso modelo alcança um desempenho SOTA ou altamente competitivo face aos principais OLMs, superando o Qwen2.5-Omni (treinado com 1,2T tokens) em mais de 50 dos 76 benchmarks. Os pontos fortes principais incluem a compreensão de vídeo (+7% média em 8), a compreensão omnimodal (+7% média em 4) e o raciocínio audiovisual (+4%). Ele também avança no processamento de fala de longa duração (reduzindo a WER em 4,2%) e lidera no processamento de imagem de baixo nível e na geração controlável em 5 métricas.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.