ChatPaper.aiChatPaper

La vitesse l'emporte toujours : Un panorama des architectures efficaces pour les grands modèles de langage

Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

August 13, 2025
papers.authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) ont produit des résultats impressionnants en compréhension, génération et raisonnement du langage, repoussant les limites des capacités des modèles multimodaux. Les modèles Transformer, fondements des LLM modernes, offrent une base solide avec d'excellentes propriétés de mise à l'échelle. Cependant, l'architecture traditionnelle des Transformers nécessite des calculs substantiels et pose des obstacles importants pour l'entraînement à grande échelle et le déploiement pratique. Dans cette étude, nous proposons un examen systématique des architectures innovantes de LLM qui abordent les limitations inhérentes des Transformers et améliorent l'efficacité. Partant de la modélisation du langage, cette étude couvre le contexte et les détails techniques des méthodes de modélisation de séquences linéaires et parcimonieuses, des variantes efficaces d'attention complète, des mélanges parcimonieux d'experts, des architectures hybrides intégrant ces techniques, ainsi que les LLM émergents basés sur la diffusion. De plus, nous discutons des applications de ces techniques à d'autres modalités et considérons leurs implications plus larges pour le développement de modèles de base évolutifs et conscients des ressources. En regroupant les études récentes dans les catégories susmentionnées, cette étude présente un plan directeur des architectures modernes de LLM efficaces, et nous espérons que cela pourra motiver les recherches futures vers des systèmes d'IA plus efficaces et polyvalents.
English
Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.
PDF372August 19, 2025