Velocidade Sempre Vence: Uma Análise sobre Arquiteturas Eficientes para Modelos de Linguagem de Grande Escala
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
August 13, 2025
Autores: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm alcançado resultados impressionantes em compreensão de linguagem, geração, raciocínio e têm expandido os limites das habilidades dos modelos multimodais. Os modelos Transformer, como base dos LLMs modernos, oferecem uma linha de base robusta com excelentes propriedades de escalabilidade. No entanto, a arquitetura tradicional do Transformer exige cálculos substanciais e apresenta obstáculos significativos para o treinamento em larga escala e a implantação prática. Nesta pesquisa, oferecemos uma análise sistemática de arquiteturas inovadoras de LLMs que abordam as limitações inerentes aos Transformers e aumentam a eficiência. Partindo da modelagem de linguagem, esta pesquisa cobre o contexto e os detalhes técnicos dos métodos de modelagem de sequências lineares e esparsas, variantes eficientes de atenção completa, mistura esparsa de especialistas, arquiteturas híbridas que incorporam as técnicas mencionadas e os emergentes LLMs baseados em difusão. Além disso, discutimos as aplicações dessas técnicas em outras modalidades e consideramos suas implicações mais amplas para o desenvolvimento de modelos de base escaláveis e conscientes de recursos. Ao agrupar estudos recentes nas categorias mencionadas, esta pesquisa apresenta um panorama das arquiteturas modernas e eficientes de LLMs, e esperamos que isso possa motivar pesquisas futuras em direção a sistemas de IA mais eficientes e versáteis.
English
Large Language Models (LLMs) have delivered impressive results in language
understanding, generation, reasoning, and pushes the ability boundary of
multimodal models. Transformer models, as the foundation of modern LLMs, offer
a strong baseline with excellent scaling properties. However, the traditional
transformer architecture requires substantial computations and poses
significant obstacles for large-scale training and practical deployment. In
this survey, we offer a systematic examination of innovative LLM architectures
that address the inherent limitations of transformers and boost the efficiency.
Starting from language modeling, this survey covers the background and
technical details of linear and sparse sequence modeling methods, efficient
full attention variants, sparse mixture-of-experts, hybrid model architectures
incorporating the above techniques, and emerging diffusion LLMs. Additionally,
we discuss applications of these techniques to other modalities and consider
their wider implications for developing scalable, resource-aware foundation
models. By grouping recent studies into the above category, this survey
presents a blueprint of modern efficient LLM architectures, and we hope this
could help motivate future research toward more efficient, versatile AI
systems.