Snelheid wint altijd: een overzicht van efficiënte architecturen voor grote taalmodellen
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
August 13, 2025
Auteurs: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben indrukwekkende resultaten geleverd op het gebied van taalbegrip, generatie, redenering en hebben de mogelijkheden van multimodale modellen verder gepushed. Transformermodellen, als basis van moderne LLMs, bieden een sterke uitgangspositie met uitstekende schaaleigenschappen. Het traditionele transformerarchitectuur vereist echter aanzienlijke rekenkracht en vormt belangrijke obstakels voor grootschalige training en praktische implementatie. In dit overzicht bieden we een systematisch onderzoek van innovatieve LLM-architecturen die de inherente beperkingen van transformers aanpakken en de efficiëntie verhogen. Beginnend bij taalmodellering, behandelt dit overzicht de achtergrond en technische details van lineaire en sparse sequentiemodelleringsmethoden, efficiënte varianten van volledige aandacht, sparse mixture-of-experts, hybride modelarchitecturen die bovenstaande technieken incorporeren, en opkomende diffusie-LLMs. Daarnaast bespreken we de toepassingen van deze technieken op andere modaliteiten en overwegen we hun bredere implicaties voor het ontwikkelen van schaalbare, resourcebewuste basis modellen. Door recente studies in de bovenstaande categorieën te groeperen, presenteert dit overzicht een blauwdruk van moderne efficiënte LLM-architecturen, en we hopen dat dit toekomstig onderzoek kan stimuleren naar efficiëntere, veelzijdige AI-systemen.
English
Large Language Models (LLMs) have delivered impressive results in language
understanding, generation, reasoning, and pushes the ability boundary of
multimodal models. Transformer models, as the foundation of modern LLMs, offer
a strong baseline with excellent scaling properties. However, the traditional
transformer architecture requires substantial computations and poses
significant obstacles for large-scale training and practical deployment. In
this survey, we offer a systematic examination of innovative LLM architectures
that address the inherent limitations of transformers and boost the efficiency.
Starting from language modeling, this survey covers the background and
technical details of linear and sparse sequence modeling methods, efficient
full attention variants, sparse mixture-of-experts, hybrid model architectures
incorporating the above techniques, and emerging diffusion LLMs. Additionally,
we discuss applications of these techniques to other modalities and consider
their wider implications for developing scalable, resource-aware foundation
models. By grouping recent studies into the above category, this survey
presents a blueprint of modern efficient LLM architectures, and we hope this
could help motivate future research toward more efficient, versatile AI
systems.