ChatPaper.aiChatPaper

VeOmni: Escalonando o Treinamento de Modelos de Qualquer Modalidade com um Zoológico de Receitas Distribuídas Centrado no Modelo

VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo

August 4, 2025
Autores: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm impulsionado progressos impressionantes na compreensão e geração omni-modal. No entanto, o treinamento de LLMs omni-modais continua sendo um desafio significativo devido às arquiteturas de modelo heterogêneas necessárias para processar diversas modalidades, exigindo um design de sistema sofisticado para treinamento em larga escala eficiente. Os frameworks existentes geralmente entrelaçam a definição do modelo com a lógica paralela, resultando em escalabilidade limitada e sobrecarga substancial de engenharia para o treinamento omni-modal de ponta a ponta. % Apresentamos o \veomni, um framework de treinamento modular e eficiente para acelerar o desenvolvimento de LLMs omni-modais. O \veomni introduz receitas distribuídas centradas no modelo que desacoplam a comunicação da computação, permitindo paralelismo 3D eficiente em LLMs omni-modais. O \veomni também apresenta uma interface de configuração flexível que suporta a integração contínua de novas modalidades com alterações mínimas de código. % Utilizando o \veomni, um modelo omni-modal de mistura de especialistas (MoE) com 30 bilhões de parâmetros pode ser treinado com uma taxa de transferência superior a 2.800 tokens/segundo/GPU e escalar para comprimentos de contexto de 160K via paralelismo 3D em 128 GPUs, demonstrando sua eficiência e escalabilidade superiores para o treinamento de grandes LLMs omni-modais.
English
Recent advances in large language models (LLMs) have driven impressive progress in omni-modal understanding and generation. However, training omni-modal LLMs remains a significant challenge due to the heterogeneous model architectures required to process diverse modalities, necessitating sophisticated system design for efficient large-scale training. Existing frameworks typically entangle model definition with parallel logic, incurring limited scalability and substantial engineering overhead for end-to-end omni-modal training. % We present \veomni, a modular and efficient training framework to accelerate the development of omni-modal LLMs. \veomni introduces model-centric distributed recipes that decouples communication from computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also features a flexible configuration interface supporting seamless integration of new modalities with minimal code change. % Using \veomni, a omni-modal mixture-of-experts (MoE) model with 30B parameters can be trained with over 2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D parallelism on 128 GPUs, showcasing its superior efficiency and scalability for training large omni-modal LLMs.
PDF172August 5, 2025