Mixture-of-Transformers: Uma Arquitetura Esparsa e Escalável para Modelos de Fundação Multi-Modal
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
November 7, 2024
Autores: Weixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin
cs.AI
Resumo
O desenvolvimento de grandes modelos de linguagem (LLMs) expandiu-se para sistemas multimodais capazes de processar texto, imagens e fala num quadro unificado. O treino destes modelos exige conjuntos de dados e recursos computacionalmente significativamente maiores em comparação com LLMs exclusivamente textuais. Para enfrentar os desafios de escalabilidade, introduzimos a Mistura de Transformers (MoT), uma arquitetura de transformer multimodal esparsa que reduz significativamente os custos computacionais de pré-treinamento. O MoT desacopla os parâmetros não-embedding do modelo por modalidade — incluindo redes *feed-forward*, matrizes de atenção e normalização de camada — permitindo o processamento específico por modalidade com auto-atenção global sobre a sequência de entrada completa.
Avaliamos o MoT em múltiplos cenários e escalas de modelo. No cenário Chameleon 7B (geração autorregressiva de texto e imagem), o MoT iguala o desempenho da baseline densa utilizando apenas 55,8% dos FLOPS. Quando estendido para incluir fala, o MoT atinge um desempenho de fala comparável à baseline densa com apenas 37,2% dos FLOPS. No cenário Transfusão, onde texto e imagem são treinados com objetivos diferentes, um modelo MoT de 7B iguala o desempenho da modalidade de imagem da baseline densa com um terço dos FLOPS, e um modelo MoT de 760M supera uma baseline densa de 1,4B em métricas-chave de geração de imagem.
A análise de desempenho do sistema realça ainda mais os benefícios práticos do MoT, alcançando a qualidade de imagem da baseline densa em 47,2% do tempo de execução (*wall-clock time*) e a qualidade de texto em 75,6% do tempo de execução (medido em instâncias AWS p4de.24xlarge com GPUs NVIDIA A100).
English
The development of large language models (LLMs) has expanded to multi-modal
systems capable of processing text, images, and speech within a unified
framework. Training these models demands significantly larger datasets and
computational resources compared to text-only LLMs. To address the scaling
challenges, we introduce Mixture-of-Transformers (MoT), a sparse multi-modal
transformer architecture that significantly reduces pretraining computational
costs. MoT decouples non-embedding parameters of the model by modality --
including feed-forward networks, attention matrices, and layer normalization --
enabling modality-specific processing with global self-attention over the full
input sequence. We evaluate MoT across multiple settings and model scales. In
the Chameleon 7B setting (autoregressive text-and-image generation), MoT
matches the dense baseline's performance using only 55.8\% of the FLOPs. When
extended to include speech, MoT reaches speech performance comparable to the
dense baseline with only 37.2\% of the FLOPs. In the Transfusion setting, where
text and image are trained with different objectives, a 7B MoT model matches
the image modality performance of the dense baseline with one third of the
FLOPs, and a 760M MoT model outperforms a 1.4B dense baseline across key image
generation metrics. System profiling further highlights MoT's practical
benefits, achieving dense baseline image quality in 47.2\% of the wall-clock
time and text quality in 75.6\% of the wall-clock time (measured on AWS
p4de.24xlarge instances with NVIDIA A100 GPUs).