MiniMax-01: 번개 주의를 사용하여 Foundation 모델의 스케일링MiniMax-01: Scaling Foundation Models with Lightning Attention
우리는 MiniMax-01 시리즈를 소개합니다. MiniMax-Text-01과 MiniMax-VL-01을 포함하여, 이 시리즈는 최고 수준의 모델들과 비교 가능하면서 더 긴 맥락을 처리하는 우수한 능력을 제공합니다. 핵심은 빠른 어텐션과 효율적인 스케일링에 있습니다. 계산 능력을 극대화하기 위해, 우리는 Mixture of Experts (MoE)와 통합하여 32명의 전문가와 4560억 개의 총 매개변수를 가진 모델을 만들었습니다. 이 중 각 토큰에 대해 459억 개가 활성화됩니다. MoE와 빠른 어텐션에 대해 최적화된 병렬 전략과 매우 효율적인 계산-통신 중첩 기술을 개발했습니다. 이 접근 방식을 통해 수백억 개의 매개변수를 가진 모델에 대해 수백만 개의 토큰을 포함하는 다양한 맥락에서 효율적인 훈련과 추론을 수행할 수 있습니다. MiniMax-Text-01의 맥락 창은 훈련 중에 최대 100만 개의 토큰에 이를 수 있으며, 추론 중에는 400만 개의 토큰까지 저렴한 비용으로 확장될 수 있습니다. 우리의 비전-언어 모델 MiniMax-VL-01은 5120억 개의 비전-언어 토큰을 계속해서 훈련하여 구축되었습니다. 표준 및 내부 벤치마크에서의 실험 결과는 우리의 모델이 GPT-4o와 Claude-3.5-Sonnet과 같은 최첨단 모델의 성능을 맞먹으면서 20-32배 더 긴 맥락 창을 제공함을 보여줍니다. 우리는 MiniMax-01을 https://github.com/MiniMax-AI에서 공개합니다.