Смещение фокуса исследований LLM с длинным контекстом с ввода на вывод
Shifting Long-Context LLMs Research from Input to Output
March 6, 2025
Авторы: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI
Аннотация
Последние достижения в области языковых моделей с длинным контекстом (LLM) в основном сосредоточены на обработке расширенных входных контекстов, что привело к значительным успехам в понимании длинных текстов. Однако столь же важный аспект генерации длинных выходных данных получил сравнительно меньше внимания. В данной статье предлагается смена парадигмы в исследованиях NLP, направленная на решение задач генерации длинных выходных данных. Такие задачи, как написание романов, долгосрочное планирование и сложные рассуждения, требуют от моделей понимания обширных контекстов и создания связных, насыщенных контекстом и логически последовательных длинных текстов. Эти требования подчеркивают критический пробел в текущих возможностях LLM. Мы акцентируем важность этой малоизученной области и призываем к сосредоточенным усилиям по разработке базовых LLM, адаптированных для генерации высококачественных длинных текстов, которые обладают огромным потенциалом для реальных приложений.
English
Recent advancements in long-context Large Language Models (LLMs) have
primarily concentrated on processing extended input contexts, resulting in
significant strides in long-context comprehension. However, the equally
critical aspect of generating long-form outputs has received comparatively less
attention. This paper advocates for a paradigm shift in NLP research toward
addressing the challenges of long-output generation. Tasks such as novel
writing, long-term planning, and complex reasoning require models to understand
extensive contexts and produce coherent, contextually rich, and logically
consistent extended text. These demands highlight a critical gap in current LLM
capabilities. We underscore the importance of this under-explored domain and
call for focused efforts to develop foundational LLMs tailored for generating
high-quality, long-form outputs, which hold immense potential for real-world
applications.Summary
AI-Generated Summary