VeOmni: 모델 중심 분산 레시피 저장소를 통한 다중 모달리티 모델 학습 확장
VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo
August 4, 2025
저자: Qianli Ma, Yaowei Zheng, Zhelun Shi, Zhongkai Zhao, Bin Jia, Ziyue Huang, Zhiqi Lin, Youjie Li, Jiacheng Yang, Yanghua Peng, Zhi Zhang, Xin Liu
cs.AI
초록
대규모 언어 모델(LLM)의 최근 발전은 전모달(omni-modal) 이해 및 생성 분야에서 인상적인 진전을 이끌어냈습니다. 그러나 다양한 모달리티를 처리하기 위해 필요한 이질적인 모델 아키텍처로 인해 전모달 LLM의 훈련은 여전히 상당한 도전 과제로 남아 있으며, 대규모 훈련을 위한 정교한 시스템 설계가 필요합니다. 기존 프레임워크는 일반적으로 모델 정의와 병렬 로직을 혼재시켜, 종단간 전모달 훈련에 있어 확장성의 한계와 상당한 엔지니어링 오버헤드를 초래합니다. % 우리는 전모달 LLM 개발을 가속화하기 위한 모듈식이고 효율적인 훈련 프레임워크인 \veomni를 제시합니다. \veomni는 통신과 계산을 분리하는 모델 중심의 분산 레시피를 도입하여 전모달 LLM에서 효율적인 3D 병렬 처리를 가능하게 합니다. 또한 \veomni는 최소한의 코드 변경으로 새로운 모달리티를 원활하게 통합할 수 있는 유연한 구성 인터페이스를 제공합니다. % \veomni를 사용하여 30B 매개변수를 가진 전모달 전문가 혼합(MoE) 모델은 128개의 GPU에서 3D 병렬 처리를 통해 초당 2,800개 이상의 토큰 처리량과 160K 컨텍스트 길이로 확장 가능하며, 대규모 전모달 LLM 훈련에 있어 뛰어난 효율성과 확장성을 입증합니다.
English
Recent advances in large language models (LLMs) have driven impressive
progress in omni-modal understanding and generation. However, training
omni-modal LLMs remains a significant challenge due to the heterogeneous model
architectures required to process diverse modalities, necessitating
sophisticated system design for efficient large-scale training. Existing
frameworks typically entangle model definition with parallel logic, incurring
limited scalability and substantial engineering overhead for end-to-end
omni-modal training. % We present \veomni, a modular and efficient training
framework to accelerate the development of omni-modal LLMs. \veomni introduces
model-centric distributed recipes that decouples communication from
computation, enabling efficient 3D parallelism on omni-modal LLMs. \veomni also
features a flexible configuration interface supporting seamless integration of
new modalities with minimal code change. % Using \veomni, a omni-modal
mixture-of-experts (MoE) model with 30B parameters can be trained with over
2,800 tokens/sec/GPU throughput and scale to 160K context lengths via 3D
parallelism on 128 GPUs, showcasing its superior efficiency and scalability for
training large omni-modal LLMs.