ChatPaper.aiChatPaper

Uni-MoE-2.0-Omni: Escalando un Modelo Grande Omnimodal Centrado en el Lenguaje mediante Mezcla de Expertos Avanzada, Entrenamiento y Datos

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

November 16, 2025
Autores: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

Resumen

Presentamos Uni-MoE 2.0 de la familia Lychee. Como un modelo grande omnimodal (OLM) completamente de código abierto, avanza sustancialmente la serie Uni-MoE de Lychee en comprensión, razonamiento y generación multimodal centrados en el lenguaje. Basándonos en la arquitectura densa Qwen2.5-7B, construimos Uni-MoE-2.0-Omni desde cero mediante tres contribuciones principales: un diseño de Mezcla de Expertos (MoE) de capacidad dinámica, una estrategia de entrenamiento progresivo potenciada con una estrategia de refuerzo iterativo, y una técnica cuidadosamente seleccionada de emparejamiento de datos multimodales. Es capaz de comprensión omnimodal, así como de generar imágenes, texto y voz. Arquitectónicamente, nuestro nuevo marco MoE equilibra la eficiencia computacional y la capacidad para 10 entradas cross-modales utilizando expertos compartidos, enrutados y nulos, mientras que nuestro Omni-Modalidad 3D RoPE garantiza la alineación cross-modal espacio-temporal en la capa de auto-atención. Para el entrenamiento, tras el pre-entrenamiento cross-modal, utilizamos una estrategia de ajuste fino supervisado progresivo que activa expertos específicos por modalidad y se ve potenciada por una composición de datos equilibrada y un método GSPO-DPO iterativo para estabilizar el entrenamiento por refuerzo y mejorar el razonamiento. En cuanto a los datos, el modelo base, entrenado con aproximadamente 75B tokens de datos multimodales de código abierto, está equipado con tokens especiales de generación de voz e imágenes, permitiéndole aprender estas tareas generativas condicionando sus salidas a indicios lingüísticos. Una evaluación exhaustiva en 85 benchmarks demuestra que nuestro modelo logra un rendimiento de vanguardia (SOTA) o altamente competitivo frente a los principales OLMs, superando a Qwen2.5-Omni (entrenado con 1.2T tokens) en más de 50 de 76 benchmarks. Sus puntos fuertes clave incluyen la comprensión de vídeo (+7% promedio en 8), la comprensión omnimodal (+7% promedio en 4) y el razonamiento audiovisual (+4%). También avanza en el procesamiento de voz de larga duración (reduciendo el WER en un 4.2%) y lidera el procesamiento de imágenes de bajo nivel y la generación controlable en 5 métricas.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
PDF1013December 1, 2025