VeOmni: Skalierung des Trainings von Modellen für beliebige Modalitäten mit einer modellzentrierten verteilten Rezeptsammlung
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
papers.authors: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben beeindruckende Fortschritte im omni-modalen Verständnis und der Generierung vorangetrieben. Das Training omni-modaler LLMs bleibt jedoch eine erhebliche Herausforderung, da heterogene Modellarchitekturen erforderlich sind, um verschiedene Modalitäten zu verarbeiten, was eine ausgeklügelte Systemgestaltung für ein effizientes Training in großem Maßstab erfordert. Bestehende Frameworks verknüpfen typischerweise die Modelldefinition mit paralleler Logik, was zu begrenzter Skalierbarkeit und erheblichem technischen Aufwand für das end-to-end omni-modale Training führt. % Wir stellen \veomni vor, ein modulares und effizientes Trainingsframework, das die Entwicklung omni-modaler LLMs beschleunigt. \veomni führt modellzentrierte verteilte Rezepte ein, die die Kommunikation von der Berechnung entkoppeln und eine effiziente 3D-Parallelität bei omni-modalen LLMs ermöglichen. \veomni verfügt außerdem über eine flexible Konfigurationsschnittstelle, die die nahtlose Integration neuer Modalitäten mit minimalen Codeänderungen unterstützt. % Mit \veomni kann ein omni-modales Mixture-of-Experts (MoE)-Modell mit 30B Parametern mit einem Durchsatz von über 2.800 Tokens/Sekunde/GPU trainiert und über 3D-Parallelität auf 128 GPUs auf Kontextlängen von 160K skaliert werden, was seine überlegene Effizienz und Skalierbarkeit für das Training großer omni-modaler LLMs unterstreicht.
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.