ChatPaper.aiChatPaper

이렇게 말하노라, 장문맥 대형 언어 모델

Thus Spake Long-Context Large Language Model

February 24, 2025
저자: Xiaoran Liu, Ruixiao Li, Mianqiu Huang, Zhigeng Liu, Yuerong Song, Qipeng Guo, Siyang He, Qiqi Wang, Linlin Li, Qun Liu, Yaqian Zhou, Xuanjing Huang, Xipeng Qiu
cs.AI

초록

긴 문맥(Long Context)은 자연어 처리(NLP) 분야에서 중요한 주제로, NLP 아키텍처의 발전 전반에 걸쳐 있으며, 대규모 언어 모델(LLMs)에게 인간과 유사한 평생 학습 능력을 제공할 수 있는 방대한 기회를 제공합니다. 그러나 긴 문맥을 추구하는 과정에는 수많은 장애물이 따릅니다. 그럼에도 불구하고, 긴 문맥은 LLMs의 핵심 경쟁력으로 남아 있습니다. 지난 2년 동안 LLMs의 문맥 길이는 수백만 토큰으로의 획기적인 확장을 이루었습니다. 더 나아가, 긴 문맥 LLMs에 대한 연구는 길이 외삽(Length Extrapolation)에서 벗어나 아키텍처, 인프라, 훈련 및 평가 기술 전반에 걸친 포괄적인 관심으로 확장되었습니다. 교향시 <차라투스트라는 이렇게 말했다>에서 영감을 받아, 우리는 LLM의 문맥 확장 여정과 인간이 자신의 유한성을 초월하려는 시도 사이에 유추를 그립니다. 이 설문조사에서 우리는 LLM이 더 긴 문맥에 대한 엄청난 필요와 궁극적으로 유한하다는 사실을 받아들여야 하는 동등한 필요 사이에서 어떻게 고군분투하는지를 설명할 것입니다. 이를 위해 우리는 아키텍처, 인프라, 훈련 및 평가라는 네 가지 관점에서 긴 문맥 LLMs의 생명주기를 전반적으로 조명하며, 긴 문맥 기술의 전체 스펙트럼을 보여줍니다. 이 설문조사의 마지막 부분에서는 현재 긴 문맥 LLMs가 직면한 10개의 미해결 질문을 제시할 것입니다. 우리는 이 설문조사가 긴 문맥 LLMs 연구에 대한 체계적인 소개가 되기를 바랍니다.
English
Long context is an important topic in Natural Language Processing (NLP), running through the development of NLP architectures, and offers immense opportunities for Large Language Models (LLMs) giving LLMs the lifelong learning potential akin to humans. Unfortunately, the pursuit of a long context is accompanied by numerous obstacles. Nevertheless, long context remains a core competitive advantage for LLMs. In the past two years, the context length of LLMs has achieved a breakthrough extension to millions of tokens. Moreover, the research on long-context LLMs has expanded from length extrapolation to a comprehensive focus on architecture, infrastructure, training, and evaluation technologies. Inspired by the symphonic poem, Thus Spake Zarathustra, we draw an analogy between the journey of extending the context of LLM and the attempts of humans to transcend its mortality. In this survey, We will illustrate how LLM struggles between the tremendous need for a longer context and its equal need to accept the fact that it is ultimately finite. To achieve this, we give a global picture of the lifecycle of long-context LLMs from four perspectives: architecture, infrastructure, training, and evaluation, showcasing the full spectrum of long-context technologies. At the end of this survey, we will present 10 unanswered questions currently faced by long-context LLMs. We hope this survey can serve as a systematic introduction to the research on long-context LLMs.

Summary

AI-Generated Summary

PDF736February 25, 2025