ChatPaper.aiChatPaper

長文脈言語モデリングに関する包括的調査

A Comprehensive Survey on Long Context Language Modeling

March 20, 2025
著者: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang
cs.AI

要旨

長文脈の効率的な処理は、自然言語処理における持続的な追求課題である。長文書、対話、その他のテキストデータの増加に伴い、広範な入力を効果的かつ効率的に処理・分析できる長文脈言語モデル(LCLM)の開発が重要となっている。本論文では、大規模言語モデルにおける長文脈モデリングの最近の進展に関する包括的なサーベイを提示する。本サーベイは、効果的かつ効率的なLCLMの獲得方法、LCLMの効率的な訓練とデプロイ方法、LCLMの包括的な評価と分析方法という3つの主要な側面を中心に構成されている。最初の側面では、長文脈処理を指向したデータ戦略、アーキテクチャ設計、ワークフローアプローチについて議論する。2番目の側面では、LCLMの訓練と推論に必要なインフラストラクチャを詳細に検討する。3番目の側面では、長文脈理解と長文生成の評価パラダイム、およびLCLMの行動分析とメカニズムの解釈可能性を提示する。これら3つの主要な側面を超えて、既存のLCLMが展開されている多様な応用シナリオを徹底的に探り、将来の有望な開発方向性を概説する。本サーベイは、長文脈LLMに関する文献の最新のレビューを提供し、研究者とエンジニアの両方にとって貴重なリソースとなることを願っている。最新の論文とリポジトリを収集した関連GitHubリポジトリは以下で利用可能である: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}。
English
Efficient processing of long contexts has been a persistent pursuit in Natural Language Processing. With the growing number of long documents, dialogues, and other textual data, it is important to develop Long Context Language Models (LCLMs) that can process and analyze extensive inputs in an effective and efficient way. In this paper, we present a comprehensive survey on recent advances in long-context modeling for large language models. Our survey is structured around three key aspects: how to obtain effective and efficient LCLMs, how to train and deploy LCLMs efficiently, and how to evaluate and analyze LCLMs comprehensively. For the first aspect, we discuss data strategies, architectural designs, and workflow approaches oriented with long context processing. For the second aspect, we provide a detailed examination of the infrastructure required for LCLM training and inference. For the third aspect, we present evaluation paradigms for long-context comprehension and long-form generation, as well as behavioral analysis and mechanism interpretability of LCLMs. Beyond these three key aspects, we thoroughly explore the diverse application scenarios where existing LCLMs have been deployed and outline promising future development directions. This survey provides an up-to-date review of the literature on long-context LLMs, which we wish to serve as a valuable resource for both researchers and engineers. An associated GitHub repository collecting the latest papers and repos is available at: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.

Summary

AI-Generated Summary

PDF492March 25, 2025