La Velocidad Siempre Gana: Un Estudio sobre Arquitecturas Eficientes para Modelos de Lenguaje a Gran Escala
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
August 13, 2025
Autores: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado resultados impresionantes en comprensión, generación y razonamiento del lenguaje, y han ampliado los límites de las capacidades de los modelos multimodales. Los modelos Transformer, como base de los LLMs modernos, ofrecen una línea de base sólida con excelentes propiedades de escalabilidad. Sin embargo, la arquitectura tradicional de los transformers requiere cálculos sustanciales y presenta obstáculos significativos para el entrenamiento a gran escala y su implementación práctica. En este estudio, ofrecemos un examen sistemático de arquitecturas innovadoras de LLMs que abordan las limitaciones inherentes de los transformers y mejoran la eficiencia. Partiendo del modelado del lenguaje, este estudio cubre los antecedentes y detalles técnicos de los métodos de modelado de secuencias lineales y dispersas, variantes eficientes de atención completa, mezcla dispersa de expertos, arquitecturas de modelos híbridos que incorporan las técnicas mencionadas y los emergentes LLMs de difusión. Además, discutimos las aplicaciones de estas técnicas en otras modalidades y consideramos sus implicaciones más amplias para el desarrollo de modelos base escalables y conscientes de los recursos. Al agrupar estudios recientes en las categorías mencionadas, este estudio presenta un esquema de las arquitecturas modernas y eficientes de LLMs, y esperamos que esto pueda motivar futuras investigaciones hacia sistemas de IA más eficientes y versátiles.
English
Large Language Models (LLMs) have delivered impressive results in language
understanding, generation, reasoning, and pushes the ability boundary of
multimodal models. Transformer models, as the foundation of modern LLMs, offer
a strong baseline with excellent scaling properties. However, the traditional
transformer architecture requires substantial computations and poses
significant obstacles for large-scale training and practical deployment. In
this survey, we offer a systematic examination of innovative LLM architectures
that address the inherent limitations of transformers and boost the efficiency.
Starting from language modeling, this survey covers the background and
technical details of linear and sparse sequence modeling methods, efficient
full attention variants, sparse mixture-of-experts, hybrid model architectures
incorporating the above techniques, and emerging diffusion LLMs. Additionally,
we discuss applications of these techniques to other modalities and consider
their wider implications for developing scalable, resource-aware foundation
models. By grouping recent studies into the above category, this survey
presents a blueprint of modern efficient LLM architectures, and we hope this
could help motivate future research toward more efficient, versatile AI
systems.