Mixture-of-Transformers: Uma Arquitetura Esparsa e Escalável para Modelos de Fundação Multi-Modal

Resumo

O desenvolvimento de grandes modelos de linguagem (LLMs) expandiu-se para sistemas multimodais capazes de processar texto, imagens e fala num quadro unificado. O treino destes modelos exige conjuntos de dados e recursos computacionalmente significativamente maiores em comparação com LLMs exclusivamente textuais. Para enfrentar os desafios de escalabilidade, introduzimos a Mistura de Transformers (MoT), uma arquitetura de transformer multimodal esparsa que reduz significativamente os custos computacionais de pré-treinamento. O MoT desacopla os parâmetros não-embedding do modelo por modalidade — incluindo redes *feed-forward*, matrizes de atenção e normalização de camada — permitindo o processamento específico por modalidade com auto-atenção global sobre a sequência de entrada completa. Avaliamos o MoT em múltiplos cenários e escalas de modelo. No cenário Chameleon 7B (geração autorregressiva de texto e imagem), o MoT iguala o desempenho da baseline densa utilizando apenas 55,8% dos FLOPS. Quando estendido para incluir fala, o MoT atinge um desempenho de fala comparável à baseline densa com apenas 37,2% dos FLOPS. No cenário Transfusão, onde texto e imagem são treinados com objetivos diferentes, um modelo MoT de 7B iguala o desempenho da modalidade de imagem da baseline densa com um terço dos FLOPS, e um modelo MoT de 760M supera uma baseline densa de 1,4B em métricas-chave de geração de imagem. A análise de desempenho do sistema realça ainda mais os benefícios práticos do MoT, alcançando a qualidade de imagem da baseline densa em 47,2% do tempo de execução (*wall-clock time*) e a qualidade de texto em 75,6% do tempo de execução (medido em instâncias AWS p4de.24xlarge com GPUs NVIDIA A100).

English

The development of large language models (LLMs) has expanded to multi-modal systems capable of processing text, images, and speech within a unified framework. Training these models demands significantly larger datasets and computational resources compared to text-only LLMs. To address the scaling challenges, we introduce Mixture-of-Transformers (MoT), a sparse multi-modal transformer architecture that significantly reduces pretraining computational costs. MoT decouples non-embedding parameters of the model by modality -- including feed-forward networks, attention matrices, and layer normalization -- enabling modality-specific processing with global self-attention over the full input sequence. We evaluate MoT across multiple settings and model scales. In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline's performance using only 55.8\% of the FLOPs. When extended to include speech, MoT reaches speech performance comparable to the dense baseline with only 37.2\% of the FLOPs. In the Transfusion setting, where text and image are trained with different objectives, a 7B MoT model matches the image modality performance of the dense baseline with one third of the FLOPs, and a 760M MoT model outperforms a 1.4B dense baseline across key image generation metrics. System profiling further highlights MoT's practical benefits, achieving dense baseline image quality in 47.2\% of the wall-clock time and text quality in 75.6\% of the wall-clock time (measured on AWS p4de.24xlarge instances with NVIDIA A100 GPUs).

Mixture-of-Transformers: Uma Arquitetura Esparsa e Escalável para Modelos de Fundação Multi-Modal

Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Resumo

Support