ChatPaper.aiChatPaper

Uni-MoE-2.0-Omni: Масштабирование языко-центричной Omnimodal большой модели с помощью передовой архитектуры MoE, обучения и данных

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

November 16, 2025
Авторы: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

Аннотация

Мы представляем Uni-MoE 2.0 из семейства Lychee. Как полностью открытая омнимодальная большая модель (OLM), она существенно развивает серию Uni-MoE от Lychee в области языко-центричного мультимодального понимания, рассуждений и генерации. На основе плотной архитектуры Qwen2.5-7B мы создали Uni-MoE-2.0-Omni с нуля, благодаря трем ключевым вкладам: проектированию смеси экспертов (MoE) с динамической пропускной способностью, прогрессивной стратегии обучения, усиленной итеративной стратегией подкрепления, и тщательно отобранной технике согласования мультимодальных данных. Модель способна к омнимодальному пониманию, а также к генерации изображений, текста и речи. С архитектурной точки зрения, наша новая MoE-структура балансирует вычислительную эффективность и возможности для 10 кросс-модальных входов, используя общих, маршрутизируемых и нулевых экспертов, в то время как наша Omni-Modality 3D RoPE обеспечивает пространственно-временное кросс-модальное выравнивание в слое самовнимания. В обучении, после кросс-модального предварительного обучения, мы используем прогрессивную стратегию контролируемого тонкого настройки, которая активирует экспертов, специфичных для модальностей, и усиливается сбалансированным составом данных, а также итеративным методом GSPO-DPO для стабилизации RL-обучения и улучшения рассуждений. Что касается данных, базовая модель, обученная на приблизительно 75 млрд токенов открытых мультимодальных данных, оснащена специальными токенами для генерации речи и изображений, что позволяет ей изучать эти генеративные задачи, обусловливая свои выходные данные лингвистическими сигналами. Обширная оценка по 85 бенчмаркам демонстрирует, что наша модель достигает состояния искусства (SOTA) или высококонкурентной производительности по сравнению с ведущими OLM, превосходя Qwen2.5-Omni (обученную на 1.2 трлн токенов) более чем в 50 из 76 тестов. Ключевые преимущества включают понимание видео (+7% в среднем по 8 тестам), омнимодальное понимание (+7% в среднем по 4 тестам) и аудиовизуальные рассуждения (+4%). Модель также продвигает обработку длинных речевых форматов (снижая WER на 4.2%) и лидирует в низкоуровневой обработке изображений и контролируемой генерации по 5 метрикам.
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
PDF1013December 1, 2025