Une étude approfondie sur la modélisation du langage à contexte étendu
A Comprehensive Survey on Long Context Language Modeling
March 20, 2025
Auteurs: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang
cs.AI
Résumé
Le traitement efficace des contextes longs a toujours été un objectif majeur en traitement automatique du langage naturel. Avec l'augmentation du nombre de documents longs, de dialogues et d'autres données textuelles, il est crucial de développer des modèles de langage à contexte long (LCLM, Long Context Language Models) capables de traiter et d'analyser des entrées étendues de manière efficace et efficiente. Dans cet article, nous présentons une étude approfondie des avancées récentes en modélisation de contextes longs pour les grands modèles de langage. Notre étude est structurée autour de trois aspects clés : comment obtenir des LCLM efficaces et efficients, comment entraîner et déployer des LCLM de manière efficiente, et comment évaluer et analyser les LCLM de manière exhaustive. Pour le premier aspect, nous discutons des stratégies de données, des conceptions architecturales et des approches de workflow orientées vers le traitement de contextes longs. Pour le deuxième aspect, nous examinons en détail l'infrastructure nécessaire pour l'entraînement et l'inférence des LCLM. Pour le troisième aspect, nous présentons des paradigmes d'évaluation pour la compréhension de contextes longs et la génération de textes longs, ainsi que l'analyse comportementale et l'interprétabilité des mécanismes des LCLM. Au-delà de ces trois aspects clés, nous explorons en profondeur les divers scénarios d'application où les LCLM existants ont été déployés et nous esquissons les directions prometteuses pour leur développement futur. Cette étude fournit une revue actualisée de la littérature sur les LCLM, que nous souhaitons voir servir de ressource précieuse pour les chercheurs et les ingénieurs. Un dépôt GitHub associé, rassemblant les derniers articles et référentiels, est disponible à l'adresse suivante :
https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
English
Efficient processing of long contexts has been a persistent pursuit in
Natural Language Processing. With the growing number of long documents,
dialogues, and other textual data, it is important to develop Long Context
Language Models (LCLMs) that can process and analyze extensive inputs in an
effective and efficient way. In this paper, we present a comprehensive survey
on recent advances in long-context modeling for large language models. Our
survey is structured around three key aspects: how to obtain effective and
efficient LCLMs, how to train and deploy LCLMs efficiently, and how to evaluate
and analyze LCLMs comprehensively. For the first aspect, we discuss data
strategies, architectural designs, and workflow approaches oriented with long
context processing. For the second aspect, we provide a detailed examination of
the infrastructure required for LCLM training and inference. For the third
aspect, we present evaluation paradigms for long-context comprehension and
long-form generation, as well as behavioral analysis and mechanism
interpretability of LCLMs. Beyond these three key aspects, we thoroughly
explore the diverse application scenarios where existing LCLMs have been
deployed and outline promising future development directions. This survey
provides an up-to-date review of the literature on long-context LLMs, which we
wish to serve as a valuable resource for both researchers and engineers. An
associated GitHub repository collecting the latest papers and repos is
available at:
https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.Summary
AI-Generated Summary