ChatPaper.aiChatPaper

Uni-MoE-2.0-Omni:先進的なMoE、トレーニング、データによる言語中心のオムニモーダル大規模モデルのスケーリング

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

November 16, 2025
著者: Yunxin Li, Xinyu Chen, Shenyuan Jiang, Haoyuan Shi, Zhenyu Liu, Xuanyu Zhang, Nanhao Deng, Zhenran Xu, Yicheng Ma, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI

要旨

私たちはライチファミリーからUni-MoE 2.0を発表します。完全オープンソースのオムニモーダル大規模モデル(OLM)として、言語中心のマルチモーダル理解・推論・生成において、LycheeのUni-MoEシリーズを大幅に進化させました。Qwen2.5-7Bの密なアーキテクチャを基盤とし、3つの核心的貢献を通じてUni-MoE-2.0-Omniを一から構築しました:動的容量Mixture-of-Experts(MoE)設計、反復的強化学習戦略で強化された段階的訓練戦略、そして注意深く選別されたマルチモーダルデータマッチング技術です。本モデルはオムニモーダル理解に加え、画像・テキスト・音声の生成が可能です。 アーキテクチャ面では、共有・ルーティング・ヌルエキスパートを活用した新MoEフレームワークが10種のクロスモーダル入力に対する計算効率と能力を両立し、Omni-Modality 3D RoPEが自己注意層における時空間的クロスモーダル調整を保証します。訓練プロセスでは、クロスモーダル事前学習後、モダリティ特化型エキスパートを活性化する段階的教師ありファインチューニング戦略を採用。均衡の取れたデータ構成と反復的GSPO-DPO手法により強化学習訓練を安定化し、推論能力を向上させました。 データ面では、約750億トークンのオープンソースマルチモーダルデータで訓練された基盤モデルに、特殊な音声・画像生成トークンを組み込むことで、言語情報を条件付けた生成タスクの学習を実現しています。85のベンチマークによる広範な評価により、当モデルが主要OLMに対してSOTAまたは高い競合性能を達成し、76ベンチマーク中50以上でQwen2.5-Omni(1.2兆トークンで訓練)を上回ることを実証しました。特に優れた点は、映像理解(8指標で平均+7%)、オムニモーダル理解(4指標で平均+7%)、音声視覚推論(+4%)です。長音声処理(WER4.2%改善)や、5指標にわたる低レベル画像処理・制御可能生成でも先進的な成果を示しています。
English
We present Uni-MoE 2.0 from the Lychee family. As a fully open-source omnimodal large model (OLM), it substantially advances Lychee's Uni-MoE series in language-centric multimodal understanding, reasoning, and generating. Based on the Qwen2.5-7B dense architecture, we build Uni-MoE-2.0-Omni from scratch through three core contributions: dynamic-capacity Mixture-of-Experts (MoE) design, a progressive training strategy enhanced with an iterative reinforcement strategy, and a carefully curated multimodal data matching technique. It is capable of omnimodal understanding, as well as generating images, text, and speech. Architecturally, our new MoE framework balances computational efficiency and capability for 10 cross-modal inputs using shared, routed, and null experts, while our Omni-Modality 3D RoPE ensures spatio-temporal cross-modality alignment in the self-attention layer. For training, following cross-modal pretraining, we use a progressive supervised fine-tuning strategy that activates modality-specific experts and is enhanced by balanced data composition and an iterative GSPO-DPO method to stabilise RL training and improve reasoning. Data-wise, the base model, trained on approximately 75B tokens of open-source multimodal data, is equipped with special speech and image generation tokens, allowing it to learn these generative tasks by conditioning its outputs on linguistic cues. Extensive evaluation across 85 benchmarks demonstrates that our model achieves SOTA or highly competitive performance against leading OLMs, surpassing Qwen2.5-Omni (trained with 1.2T tokens) on over 50 of 76 benchmarks. Key strengths include video understanding (+7% avg. of 8), omnimodallity understanding (+7% avg. of 4), and audiovisual reasoning (+4%). It also advances long-form speech processing (reducing WER by 4.2%) and leads in low-level image processing and controllable generation across 5 metrics.
PDF1013December 1, 2025