VeOmni: Escalando el Entrenamiento de Modelos de Cualquier Modalidad con un Zoo de Recetas Distribuidas Centrado en el Modelo
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
Autores: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado un progreso impresionante en la comprensión y generación omni-modal. Sin embargo, entrenar LLMs omni-modales sigue siendo un desafío significativo debido a las arquitecturas de modelos heterogéneas necesarias para procesar diversas modalidades, lo que requiere un diseño de sistema sofisticado para un entrenamiento a gran escala eficiente. Los marcos existentes suelen entrelazar la definición del modelo con la lógica paralela, lo que resulta en una escalabilidad limitada y una sobrecarga de ingeniería sustancial para el entrenamiento omni-modal de extremo a extremo. % Presentamos \veomni, un marco de entrenamiento modular y eficiente para acelerar el desarrollo de LLMs omni-modales. \veomni introduce recetas distribuidas centradas en el modelo que desacoplan la comunicación del cálculo, permitiendo un paralelismo 3D eficiente en LLMs omni-modales. \veomni también cuenta con una interfaz de configuración flexible que permite la integración sin problemas de nuevas modalidades con cambios mínimos en el código. % Utilizando \veomni, un modelo omni-modal de mezcla de expertos (MoE) con 30 mil millones de parámetros puede entrenarse con un rendimiento de más de 2,800 tokens/segundo/GPU y escalar a longitudes de contexto de 160K mediante paralelismo 3D en 128 GPUs, demostrando su eficiencia y escalabilidad superiores para entrenar LLMs omni-modales de gran escala.
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.