La Velocidad Siempre Gana: Un Estudio sobre Arquitecturas Eficientes para Modelos de Lenguaje a Gran Escala

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado resultados impresionantes en comprensión, generación y razonamiento del lenguaje, y han ampliado los límites de las capacidades de los modelos multimodales. Los modelos Transformer, como base de los LLMs modernos, ofrecen una línea de base sólida con excelentes propiedades de escalabilidad. Sin embargo, la arquitectura tradicional de los transformers requiere cálculos sustanciales y presenta obstáculos significativos para el entrenamiento a gran escala y su implementación práctica. En este estudio, ofrecemos un examen sistemático de arquitecturas innovadoras de LLMs que abordan las limitaciones inherentes de los transformers y mejoran la eficiencia. Partiendo del modelado del lenguaje, este estudio cubre los antecedentes y detalles técnicos de los métodos de modelado de secuencias lineales y dispersas, variantes eficientes de atención completa, mezcla dispersa de expertos, arquitecturas de modelos híbridos que incorporan las técnicas mencionadas y los emergentes LLMs de difusión. Además, discutimos las aplicaciones de estas técnicas en otras modalidades y consideramos sus implicaciones más amplias para el desarrollo de modelos base escalables y conscientes de los recursos. Al agrupar estudios recientes en las categorías mencionadas, este estudio presenta un esquema de las arquitecturas modernas y eficientes de LLMs, y esperamos que esto pueda motivar futuras investigaciones hacia sistemas de IA más eficientes y versátiles.

English

Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.

La Velocidad Siempre Gana: Un Estudio sobre Arquitecturas Eficientes para Modelos de Lenguaje a Gran Escala

Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

Resumen

Support