VeOmni: Escalonando o Treinamento de Modelos de Qualquer Modalidade com um Zoológico de Receitas Distribuídas Centrado no Modelo
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
Autores: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm impulsionado progressos impressionantes na compreensão e geração omni-modal. No entanto, o treinamento de LLMs omni-modais continua sendo um desafio significativo devido às arquiteturas de modelo heterogêneas necessárias para processar diversas modalidades, exigindo um design de sistema sofisticado para treinamento em larga escala eficiente. Os frameworks existentes geralmente entrelaçam a definição do modelo com a lógica paralela, resultando em escalabilidade limitada e sobrecarga substancial de engenharia para o treinamento omni-modal de ponta a ponta. % Apresentamos o \veomni, um framework de treinamento modular e eficiente para acelerar o desenvolvimento de LLMs omni-modais. O \veomni introduz receitas distribuídas centradas no modelo que desacoplam a comunicação da computação, permitindo paralelismo 3D eficiente em LLMs omni-modais. O \veomni também apresenta uma interface de configuração flexível que suporta a integração contínua de novas modalidades com alterações mínimas de código. % Utilizando o \veomni, um modelo omni-modal de mistura de especialistas (MoE) com 30 bilhões de parâmetros pode ser treinado com uma taxa de transferência superior a 2.800 tokens/segundo/GPU e escalar para comprimentos de contexto de 160K via paralelismo 3D em 128 GPUs, demonstrando sua eficiência e escalabilidade superiores para o treinamento de grandes LLMs omni-modais.
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.