Смещение фокуса исследований LLM с длинным контекстом с ввода на вывод

Аннотация

Последние достижения в области языковых моделей с длинным контекстом (LLM) в основном сосредоточены на обработке расширенных входных контекстов, что привело к значительным успехам в понимании длинных текстов. Однако столь же важный аспект генерации длинных выходных данных получил сравнительно меньше внимания. В данной статье предлагается смена парадигмы в исследованиях NLP, направленная на решение задач генерации длинных выходных данных. Такие задачи, как написание романов, долгосрочное планирование и сложные рассуждения, требуют от моделей понимания обширных контекстов и создания связных, насыщенных контекстом и логически последовательных длинных текстов. Эти требования подчеркивают критический пробел в текущих возможностях LLM. Мы акцентируем важность этой малоизученной области и призываем к сосредоточенным усилиям по разработке базовых LLM, адаптированных для генерации высококачественных длинных текстов, которые обладают огромным потенциалом для реальных приложений.

English

Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.

Смещение фокуса исследований LLM с длинным контекстом с ввода на вывод

Shifting Long-Context LLMs Research from Input to Output

Аннотация

Support