ChatPaper.aiChatPaper

Geschwindigkeit siegt immer: Ein Überblick über effiziente Architekturen für große Sprachmodelle

Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

August 13, 2025
papers.authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben beeindruckende Ergebnisse in den Bereichen Sprachverständnis, -generierung und -logik erzielt und die Fähigkeitsgrenzen multimodaler Modelle erweitert. Transformer-Modelle, die die Grundlage moderner LLMs bilden, bieten eine solide Basis mit hervorragenden Skalierungseigenschaften. Allerdings erfordert die traditionelle Transformer-Architektur erhebliche Rechenressourcen und stellt erhebliche Hindernisse für das Training in großem Maßstab und die praktische Anwendung dar. In dieser Übersichtsarbeit bieten wir eine systematische Untersuchung innovativer LLM-Architekturen, die die inhärenten Einschränkungen von Transformern adressieren und die Effizienz steigern. Ausgehend vom Sprachmodellierungskontext deckt diese Arbeit den Hintergrund und die technischen Details linearer und spärlicher Sequenzmodellierungsmethoden, effizienter Varianten der vollständigen Aufmerksamkeit, spärlicher Mixture-of-Experts, hybrider Modellarchitekturen, die die oben genannten Techniken integrieren, sowie aufkommender diffusionsbasierter LLMs ab. Darüber hinaus diskutieren wir die Anwendungen dieser Techniken auf andere Modalitäten und betrachten ihre weiteren Implikationen für die Entwicklung skalierbarer, ressourcenbewusster Basismodelle. Indem wir aktuelle Studien in die oben genannten Kategorien einordnen, präsentiert diese Übersichtsarbeit einen Leitfaden für moderne effiziente LLM-Architekturen, und wir hoffen, dass dies zukünftige Forschungen hin zu effizienteren, vielseitigeren KI-Systemen motivieren kann.
English
Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.
PDF372August 19, 2025