VeOmni : Mise à l'échelle de l'entraînement de modèles pour toute modalité grâce à une zoo de recettes distribuées centrées sur le modèle
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
papers.authors: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
papers.abstract
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis des progrès impressionnants dans la compréhension et la génération omni-modales. Cependant, l'entraînement de LLMs omni-modaux reste un défi majeur en raison des architectures de modèles hétérogènes nécessaires pour traiter des modalités diverses, ce qui exige une conception de système sophistiquée pour un entraînement à grande échelle efficace. Les frameworks existants intègrent généralement la définition du modèle avec la logique parallèle, ce qui entraîne une scalabilité limitée et une surcharge d'ingénierie substantielle pour un entraînement omni-modal de bout en bout. % Nous présentons \veomni, un framework d'entraînement modulaire et efficace pour accélérer le développement de LLMs omni-modaux. \veomni introduit des recettes distribuées centrées sur le modèle qui découplent la communication du calcul, permettant un parallélisme 3D efficace sur les LLMs omni-modaux. \veomni propose également une interface de configuration flexible supportant l'intégration transparente de nouvelles modalités avec un minimum de modifications de code. % En utilisant \veomni, un modèle omni-modal de type mixture-of-experts (MoE) avec 30 milliards de paramètres peut être entraîné avec un débit de plus de 2 800 tokens/sec/GPU et s'étendre à des contextes de 160K tokens via un parallélisme 3D sur 128 GPU, démontrant ainsi son efficacité et sa scalabilité supérieures pour l'entraînement de grands LLMs omni-modaux.
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.