ChatPaper.aiChatPaper

VeOmni: Skalierung des Trainings von Modellen für beliebige Modalitäten mit einer modellzentrierten verteilten Rezeptsammlung

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

August 4, 2025
papers.authors: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben beeindruckende Fortschritte im omni-modalen Verständnis und der Generierung vorangetrieben. Das Training omni-modaler LLMs bleibt jedoch eine erhebliche Herausforderung, da heterogene Modellarchitekturen erforderlich sind, um verschiedene Modalitäten zu verarbeiten, was eine ausgeklügelte Systemgestaltung für ein effizientes Training in großem Maßstab erfordert. Bestehende Frameworks verknüpfen typischerweise die Modelldefinition mit paralleler Logik, was zu begrenzter Skalierbarkeit und erheblichem technischen Aufwand für das end-to-end omni-modale Training führt. % Wir stellen \veomni vor, ein modulares und effizientes Trainingsframework, das die Entwicklung omni-modaler LLMs beschleunigt. \veomni führt modellzentrierte verteilte Rezepte ein, die die Kommunikation von der Berechnung entkoppeln und eine effiziente 3D-Parallelität bei omni-modalen LLMs ermöglichen. \veomni verfügt außerdem über eine flexible Konfigurationsschnittstelle, die die nahtlose Integration neuer Modalitäten mit minimalen Codeänderungen unterstützt. % Mit \veomni kann ein omni-modales Mixture-of-Experts (MoE)-Modell mit 30B Parametern mit einem Durchsatz von über 2.800 Tokens/Sekunde/GPU trainiert und über 3D-Parallelität auf 128 GPUs auf Kontextlängen von 160K skaliert werden, was seine überlegene Effizienz und Skalierbarkeit für das Training großer omni-modaler LLMs unterstreicht.
English
Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for end-to-end omni-modal training. % We present \veomni, a modular and efficient training framework to accelerate the development of omni-modal LLMs. \veomni introduces model-centric distributed recipes that decouples communication from computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also features a flexible configuration interface supporting seamless integration of new modalities with minimal code change. % Using \veomni, a omni-modal mixture-of-experts (MoE) model with 30B parameters can be trained with over 2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D parallelism on 128 GPUs, showcasing its superior efficiency and scalability for training large omni-modal LLMs.
PDF152August 5, 2025