ChatPaper.aiChatPaper

VeOmni: Schaalbaarheid van Modeltraining voor Elke Modaliteit met een Modelcentrische Gedistribueerde Receptenverzameling

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

August 4, 2025
Auteurs: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI

Samenvatting

Recente vooruitgang in grote taalmodellen (LLMs) heeft indrukwekkende voortgang geboekt in omnimodale begrip en generatie. Het trainen van omnimodale LLMs blijft echter een aanzienlijke uitdaging vanwege de heterogene modelarchitecturen die nodig zijn om diverse modaliteiten te verwerken, wat geavanceerd systeemontwerp vereist voor efficiënte training op grote schaal. Bestaande frameworks verstrengelen doorgaans modeldefinitie met parallelle logica, wat leidt tot beperkte schaalbaarheid en aanzienlijke technische overhead voor end-to-end omnimodale training. % Wij presenteren \veomni, een modulair en efficiënt trainingsframework om de ontwikkeling van omnimodale LLMs te versnellen. \veomni introduceert modelgerichte gedistribueerde recepten die communicatie ontkoppelen van berekening, waardoor efficiënte 3D-parallelisatie op omnimodale LLMs mogelijk wordt. \veomni beschikt ook over een flexibele configuratie-interface die naadloze integratie van nieuwe modaliteiten ondersteunt met minimale codeverandering. % Met \veomni kan een omnimodaal mixture-of-experts (MoE)-model met 30B parameters getraind worden met een doorvoer van meer dan 2.800 tokens/sec/GPU en geschaald worden naar contextlengtes van 160K via 3D-parallelisatie op 128 GPU's, wat de superieure efficiëntie en schaalbaarheid aantoont voor het trainen van grote omnimodale LLMs.
English
Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for end-to-end omni-modal training. % We present \veomni, a modular and efficient training framework to accelerate the development of omni-modal LLMs. \veomni introduces model-centric distributed recipes that decouples communication from computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also features a flexible configuration interface supporting seamless integration of new modalities with minimal code change. % Using \veomni, a omni-modal mixture-of-experts (MoE) model with 30B parameters can be trained with over 2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D parallelism on 128 GPUs, showcasing its superior efficiency and scalability for training large omni-modal LLMs.
PDF122August 5, 2025