La Velocità Vince Sempre: Un'Analisi sulle Architetture Efficienti per i Modelli Linguistici di Grande Dimensione
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
August 13, 2025
Autori: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto risultati impressionanti nella comprensione, generazione e ragionamento del linguaggio, spingendo i limiti delle capacità dei modelli multimodali. I modelli Transformer, alla base dei moderni LLM, offrono una solida baseline con eccellenti proprietà di scalabilità. Tuttavia, l'architettura tradizionale dei Transformer richiede calcoli sostanziali e pone significativi ostacoli per l'addestramento su larga scala e il dispiegamento pratico. In questa rassegna, offriamo un'esame sistematico delle architetture innovative di LLM che affrontano le limitazioni intrinseche dei Transformer e migliorano l'efficienza. Partendo dalla modellazione del linguaggio, questa rassegna copre i dettagli tecnici e il contesto dei metodi di modellazione lineare e sparsa delle sequenze, le varianti efficienti dell'attenzione completa, le misture sparse di esperti, le architetture ibride che incorporano le tecniche sopra menzionate e i nuovi LLM basati su diffusione. Inoltre, discutiamo le applicazioni di queste tecniche ad altre modalità e consideriamo le loro implicazioni più ampie per lo sviluppo di modelli di base scalabili e consapevoli delle risorse. Raggruppando gli studi recenti nelle categorie sopra descritte, questa rassegna presenta una mappa delle moderne architetture efficienti di LLM, e speriamo che ciò possa contribuire a motivare future ricerche verso sistemi di IA più efficienti e versatili.
English
Large Language Models (LLMs) have delivered impressive results in language
understanding, generation, reasoning, and pushes the ability boundary of
multimodal models. Transformer models, as the foundation of modern LLMs, offer
a strong baseline with excellent scaling properties. However, the traditional
transformer architecture requires substantial computations and poses
significant obstacles for large-scale training and practical deployment. In
this survey, we offer a systematic examination of innovative LLM architectures
that address the inherent limitations of transformers and boost the efficiency.
Starting from language modeling, this survey covers the background and
technical details of linear and sparse sequence modeling methods, efficient
full attention variants, sparse mixture-of-experts, hybrid model architectures
incorporating the above techniques, and emerging diffusion LLMs. Additionally,
we discuss applications of these techniques to other modalities and consider
their wider implications for developing scalable, resource-aware foundation
models. By grouping recent studies into the above category, this survey
presents a blueprint of modern efficient LLM architectures, and we hope this
could help motivate future research toward more efficient, versatile AI
systems.