MoMa: 모달리티 인식 전문가 혼합을 통한 효율적인 조기 융합 사전 학습
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
July 31, 2024
저자: Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan
cs.AI
초록
우리는 혼합 모달리티 초기 융합 언어 모델의 사전 학습을 위해 설계된 새로운 모달리티 인식 전문가 혼합(MoMa) 아키텍처를 소개합니다. MoMa는 이미지와 텍스트를 임의의 순서로 처리하기 위해 전문가 모듈을 모달리티별 그룹으로 나눕니다. 이러한 그룹은 지정된 토큰만을 독점적으로 처리하면서 각 그룹 내에서 학습된 라우팅을 사용하여 의미론적으로 정보화된 적응성을 유지합니다. 우리의 실험 결과는 이러한 모달리티별 파라미터 할당을 통해 상당한 사전 학습 효율성 향상을 보여줍니다. 1조 토큰의 학습 예산 하에서, 4개의 텍스트 전문가와 4개의 이미지 전문가를 갖춘 MoMa 1.4B 모델은 사전 학습 손실 기준으로 계산적으로 동등한 밀집 베이스라인 대비 전반적으로 3.7배, 텍스트 처리에서 2.6배, 이미지 처리에서 5.2배의 FLOPs 절감을 달성합니다. 이는 8개의 혼합 모달리티 전문가를 사용한 표준 전문가 선택 MoE가 달성한 전반적 FLOPs 절감 3배(텍스트: 3배, 이미지: 2.8배)를 능가합니다. MoMa를 깊이 혼합(MoD)과 결합하면 사전 학습 FLOPs 절감이 전반적으로 4.2배(텍스트: 3.4배, 이미지: 5.3배)로 더욱 개선되지만, 라우터 정확도에 대한 민감도가 증가하여 인과 추론 성능이 저하됩니다. 이러한 결과는 MoMa가 혼합 모달리티 초기 융합 언어 모델 사전 학습의 효율성을 크게 향상시킬 잠재력을 보여주며, 더욱 자원 효율적이고 강력한 다중 모달 AI 시스템을 위한 길을 열어줍니다.
English
We introduce MoMa, a novel modality-aware mixture-of-experts (MoE)
architecture designed for pre-training mixed-modal, early-fusion language
models. MoMa processes images and text in arbitrary sequences by dividing
expert modules into modality-specific groups. These groups exclusively process
designated tokens while employing learned routing within each group to maintain
semantically informed adaptivity. Our empirical results reveal substantial
pre-training efficiency gains through this modality-specific parameter
allocation. Under a 1-trillion-token training budget, the MoMa 1.4B model,
featuring 4 text experts and 4 image experts, achieves impressive FLOPs
savings: 3.7x overall, with 2.6x for text and 5.2x for image processing
compared to a compute-equivalent dense baseline, measured by pre-training loss.
This outperforms the standard expert-choice MoE with 8 mixed-modal experts,
which achieves 3x overall FLOPs savings (3x for text, 2.8x for image).
Combining MoMa with mixture-of-depths (MoD) further improves pre-training FLOPs
savings to 4.2x overall (text: 3.4x, image: 5.3x), although this combination
hurts performance in causal inference due to increased sensitivity to router
accuracy. These results demonstrate MoMa's potential to significantly advance
the efficiency of mixed-modal, early-fusion language model pre-training, paving
the way for more resource-efficient and capable multimodal AI systems.Summary
AI-Generated Summary