ChatPaper.aiChatPaper

Um Estudo Abrangente sobre Modelagem de Linguagem com Contexto Longo

A Comprehensive Survey on Long Context Language Modeling

March 20, 2025
Autores: Jiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang
cs.AI

Resumo

O processamento eficiente de contextos longos tem sido uma busca constante no campo de Processamento de Linguagem Natural. Com o crescente número de documentos extensos, diálogos e outros dados textuais, é importante desenvolver Modelos de Linguagem de Contexto Longo (LCLMs, na sigla em inglês) que possam processar e analisar entradas extensas de forma eficaz e eficiente. Neste artigo, apresentamos uma revisão abrangente sobre os avanços recentes na modelagem de contexto longo para grandes modelos de linguagem. Nossa revisão é estruturada em torno de três aspectos principais: como obter LCLMs eficazes e eficientes, como treinar e implantar LCLMs de forma eficiente, e como avaliar e analisar LCLMs de maneira abrangente. Para o primeiro aspecto, discutimos estratégias de dados, projetos arquitetônicos e abordagens de fluxo de trabalho voltadas para o processamento de contexto longo. Para o segundo aspecto, fornecemos um exame detalhado da infraestrutura necessária para o treinamento e inferência de LCLMs. Para o terceiro aspecto, apresentamos paradigmas de avaliação para compreensão de contexto longo e geração de textos longos, bem como análise comportamental e interpretabilidade de mecanismos dos LCLMs. Além desses três aspectos principais, exploramos minuciosamente os diversos cenários de aplicação onde os LCLMs existentes foram implantados e delineamos direções promissoras para o desenvolvimento futuro. Esta revisão oferece uma atualização da literatura sobre LLMs de contexto longo, que esperamos servir como um recurso valioso tanto para pesquisadores quanto para engenheiros. Um repositório GitHub associado, que coleta os artigos e repositórios mais recentes, está disponível em: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
English
Efficient processing of long contexts has been a persistent pursuit in Natural Language Processing. With the growing number of long documents, dialogues, and other textual data, it is important to develop Long Context Language Models (LCLMs) that can process and analyze extensive inputs in an effective and efficient way. In this paper, we present a comprehensive survey on recent advances in long-context modeling for large language models. Our survey is structured around three key aspects: how to obtain effective and efficient LCLMs, how to train and deploy LCLMs efficiently, and how to evaluate and analyze LCLMs comprehensively. For the first aspect, we discuss data strategies, architectural designs, and workflow approaches oriented with long context processing. For the second aspect, we provide a detailed examination of the infrastructure required for LCLM training and inference. For the third aspect, we present evaluation paradigms for long-context comprehension and long-form generation, as well as behavioral analysis and mechanism interpretability of LCLMs. Beyond these three key aspects, we thoroughly explore the diverse application scenarios where existing LCLMs have been deployed and outline promising future development directions. This survey provides an up-to-date review of the literature on long-context LLMs, which we wish to serve as a valuable resource for both researchers and engineers. An associated GitHub repository collecting the latest papers and repos is available at: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.

Summary

AI-Generated Summary

PDF492March 25, 2025