ChatPaper.aiChatPaper

VeOmni : Mise à l'échelle de l'entraînement de modèles pour toute modalité grâce à une zoo de recettes distribuées centrées sur le modèle

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

August 4, 2025
papers.authors: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI

papers.abstract

Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis des progrès impressionnants dans la compréhension et la génération omni-modales. Cependant, l'entraînement de LLMs omni-modaux reste un défi majeur en raison des architectures de modèles hétérogènes nécessaires pour traiter des modalités diverses, ce qui exige une conception de système sophistiquée pour un entraînement à grande échelle efficace. Les frameworks existants intègrent généralement la définition du modèle avec la logique parallèle, ce qui entraîne une scalabilité limitée et une surcharge d'ingénierie substantielle pour un entraînement omni-modal de bout en bout. % Nous présentons \veomni, un framework d'entraînement modulaire et efficace pour accélérer le développement de LLMs omni-modaux. \veomni introduit des recettes distribuées centrées sur le modèle qui découplent la communication du calcul, permettant un parallélisme 3D efficace sur les LLMs omni-modaux. \veomni propose également une interface de configuration flexible supportant l'intégration transparente de nouvelles modalités avec un minimum de modifications de code. % En utilisant \veomni, un modèle omni-modal de type mixture-of-experts (MoE) avec 30 milliards de paramètres peut être entraîné avec un débit de plus de 2 800 tokens/sec/GPU et s'étendre à des contextes de 160K tokens via un parallélisme 3D sur 128 GPU, démontrant ainsi son efficacité et sa scalabilité supérieures pour l'entraînement de grands LLMs omni-modaux.
English
Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for end-to-end omni-modal training. % We present \veomni, a modular and efficient training framework to accelerate the development of omni-modal LLMs. \veomni introduces model-centric distributed recipes that decouples communication from computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also features a flexible configuration interface supporting seamless integration of new modalities with minimal code change. % Using \veomni, a omni-modal mixture-of-experts (MoE) model with 30B parameters can be trained with over 2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D parallelism on 128 GPUs, showcasing its superior efficiency and scalability for training large omni-modal LLMs.
PDF152August 5, 2025