VeOmni: Schaalbaarheid van Modeltraining voor Elke Modaliteit met een Modelcentrische Gedistribueerde Receptenverzameling
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
Auteurs: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
Samenvatting
Recente vooruitgang in grote taalmodellen (LLMs) heeft indrukwekkende voortgang geboekt in omnimodale begrip en generatie. Het trainen van omnimodale LLMs blijft echter een aanzienlijke uitdaging vanwege de heterogene modelarchitecturen die nodig zijn om diverse modaliteiten te verwerken, wat geavanceerd systeemontwerp vereist voor efficiënte training op grote schaal. Bestaande frameworks verstrengelen doorgaans modeldefinitie met parallelle logica, wat leidt tot beperkte schaalbaarheid en aanzienlijke technische overhead voor end-to-end omnimodale training. % Wij presenteren \veomni, een modulair en efficiënt trainingsframework om de ontwikkeling van omnimodale LLMs te versnellen. \veomni introduceert modelgerichte gedistribueerde recepten die communicatie ontkoppelen van berekening, waardoor efficiënte 3D-parallelisatie op omnimodale LLMs mogelijk wordt. \veomni beschikt ook over een flexibele configuratie-interface die naadloze integratie van nieuwe modaliteiten ondersteunt met minimale codeverandering. % Met \veomni kan een omnimodaal mixture-of-experts (MoE)-model met 30B parameters getraind worden met een doorvoer van meer dan 2.800 tokens/sec/GPU en geschaald worden naar contextlengtes van 160K via 3D-parallelisatie op 128 GPU's, wat de superieure efficiëntie en schaalbaarheid aantoont voor het trainen van grote omnimodale LLMs.
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.