VeOmni: モデル中心型分散レシピズーによる任意モダリティモデルトレーニングのスケーリング
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
著者: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
要旨
大規模言語モデル(LLMs)の最近の進展により、全モーダル理解と生成において目覚ましい進歩がもたらされている。しかし、多様なモダリティを処理するために必要な異種モデルアーキテクチャのため、全モーダルLLMsの訓練は依然として大きな課題であり、効率的な大規模訓練のための高度なシステム設計が求められている。既存のフレームワークは、モデル定義と並列ロジックを密接に結びつけることが多く、エンドツーエンドの全モーダル訓練においてスケーラビリティが制限され、多大なエンジニアリングコストが発生する。% 本論文では、全モーダルLLMsの開発を加速するためのモジュール式で効率的な訓練フレームワークである\veomniを提案する。\veomniは、通信と計算を分離するモデル中心の分散レシピを導入し、全モーダルLLMsにおける効率的な3D並列処理を可能にする。また、\veomniは柔軟な設定インターフェースを備えており、最小限のコード変更で新しいモダリティをシームレスに統合できる。% \veomniを使用することで、30Bパラメータを持つ全モーダル混合エキスパート(MoE)モデルを、128GPU上で3D並列処理により2,800トークン/秒/GPU以上のスループットで訓練し、160Kのコンテキスト長にスケールすることが可能であり、大規模全モーダルLLMsの訓練におけるその優れた効率性とスケーラビリティを示している。
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.