ChatPaper.aiChatPaper

Mezcla de Transformadores: Una Arquitectura Escasa y Escalable para Modelos Fundacionales Multi-Modales

Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

November 7, 2024
Autores: Weixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin
cs.AI

Resumen

El desarrollo de los grandes modelos de lenguaje (LLM) se ha expandido hacia sistemas multimodales capaces de procesar texto, imágenes y voz dentro de un marco unificado. El entrenamiento de estos modelos requiere conjuntos de datos y recursos computacionales significativamente mayores en comparación con los LLM que solo procesan texto. Para abordar los desafíos de escalabilidad, presentamos Mixture-of-Transformers (MoT), una arquitectura de transformador multimodal dispersa que reduce significativamente los costos computacionales del preentrenamiento. MoT desacopla los parámetros no de incrustación del modelo por modalidad —incluyendo redes neuronales feed-forward, matrices de atención y normalización de capa— permitiendo un procesamiento específico por modalidad con autoatención global sobre la secuencia de entrada completa. Evaluamos MoT en múltiples configuraciones y escalas de modelo. En la configuración Chameleon 7B (generación autoregresiva de texto e imágenes), MoT iguala el rendimiento de la línea de base densa utilizando solo el 55.8% de los FLOPS. Cuando se extiende para incluir voz, MoT alcanza un rendimiento en voz comparable al de la línea de base densa con solo el 37.2% de los FLOPS. En la configuración Transfusion, donde el texto y la imagen se entrenan con objetivos diferentes, un modelo MoT de 7B iguala el rendimiento de la modalidad de imagen de la línea de base densa con un tercio de los FLOPS, y un modelo MoT de 760M supera a una línea de base densa de 1.4B en métricas clave de generación de imágenes. La evaluación del sistema resalta además los beneficios prácticos de MoT, logrando la calidad de imagen de la línea de base densa en el 47.2% del tiempo de reloj de pared y la calidad de texto en el 75.6% del tiempo de reloj de pared (medido en instancias AWS p4de.24xlarge con GPUs NVIDIA A100).
English
The development of large language models (LLMs) has expanded to multi-modal systems capable of processing text, images, and speech within a unified framework. Training these models demands significantly larger datasets and computational resources compared to text-only LLMs. To address the scaling challenges, we introduce Mixture-of-Transformers (MoT), a sparse multi-modal transformer architecture that significantly reduces pretraining computational costs. MoT decouples non-embedding parameters of the model by modality -- including feed-forward networks, attention matrices, and layer normalization -- enabling modality-specific processing with global self-attention over the full input sequence. We evaluate MoT across multiple settings and model scales. In the Chameleon 7B setting (autoregressive text-and-image generation), MoT matches the dense baseline's performance using only 55.8\% of the FLOPs. When extended to include speech, MoT reaches speech performance comparable to the dense baseline with only 37.2\% of the FLOPs. In the Transfusion setting, where text and image are trained with different objectives, a 7B MoT model matches the image modality performance of the dense baseline with one third of the FLOPs, and a 760M MoT model outperforms a 1.4B dense baseline across key image generation metrics. System profiling further highlights MoT's practical benefits, achieving dense baseline image quality in 47.2\% of the wall-clock time and text quality in 75.6\% of the wall-clock time (measured on AWS p4de.24xlarge instances with NVIDIA A100 GPUs).
PDF512December 4, 2025