Un'Esauriente Rassegna sulla Modellazione Linguistica a Lungo Contesto
A Comprehensive Survey on Long Context Language Modeling
March 20, 2025
Autori: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang
cs.AI
Abstract
Il trattamento efficiente di contesti lunghi è stato un obiettivo persistente nel campo dell'Elaborazione del Linguaggio Naturale. Con il crescente numero di documenti estesi, dialoghi e altri dati testuali, è importante sviluppare Modelli Linguistici per Contesti Lunghi (LCLM, Long Context Language Models) in grado di elaborare e analizzare input estesi in modo efficace ed efficiente. In questo articolo, presentiamo una rassegna completa sui recenti progressi nella modellazione di contesti lunghi per i grandi modelli linguistici. La nostra rassegna è strutturata attorno a tre aspetti chiave: come ottenere LCLM efficaci ed efficienti, come addestrare e implementare LCLM in modo efficiente, e come valutare e analizzare LCLM in modo completo. Per il primo aspetto, discutiamo strategie sui dati, progetti architetturali e approcci di flusso di lavoro orientati all'elaborazione di contesti lunghi. Per il secondo aspetto, forniamo un esame dettagliato dell'infrastruttura necessaria per l'addestramento e l'inferenza degli LCLM. Per il terzo aspetto, presentiamo paradigmi di valutazione per la comprensione di contesti lunghi e la generazione di testi estesi, nonché l'analisi comportamentale e l'interpretabilità dei meccanismi degli LCLM. Oltre a questi tre aspetti chiave, esploriamo approfonditamente i diversi scenari applicativi in cui gli LCLM esistenti sono stati implementati e delineiamo promettenti direzioni di sviluppo future. Questa rassegna fornisce una revisione aggiornata della letteratura sui LCLM, che speriamo possa servire come una risorsa preziosa sia per i ricercatori che per gli ingegneri. Un repository GitHub associato, che raccoglie i più recenti articoli e repository, è disponibile all'indirizzo: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
English
Efficient processing of long contexts has been a persistent pursuit in
Natural Language Processing. With the growing number of long documents,
dialogues, and other textual data, it is important to develop Long Context
Language Models (LCLMs) that can process and analyze extensive inputs in an
effective and efficient way. In this paper, we present a comprehensive survey
on recent advances in long-context modeling for large language models. Our
survey is structured around three key aspects: how to obtain effective and
efficient LCLMs, how to train and deploy LCLMs efficiently, and how to evaluate
and analyze LCLMs comprehensively. For the first aspect, we discuss data
strategies, architectural designs, and workflow approaches oriented with long
context processing. For the second aspect, we provide a detailed examination of
the infrastructure required for LCLM training and inference. For the third
aspect, we present evaluation paradigms for long-context comprehension and
long-form generation, as well as behavioral analysis and mechanism
interpretability of LCLMs. Beyond these three key aspects, we thoroughly
explore the diverse application scenarios where existing LCLMs have been
deployed and outline promising future development directions. This survey
provides an up-to-date review of the literature on long-context LLMs, which we
wish to serve as a valuable resource for both researchers and engineers. An
associated GitHub repository collecting the latest papers and repos is
available at:
https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.