ChatPaper.aiChatPaper

Spostare la ricerca sugli LLM a lungo contesto dall'input all'output

Shifting Long-Context LLMs Research from Input to Output

March 6, 2025
Autori: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) con contesto lungo si sono concentrati principalmente sull'elaborazione di contesti di input estesi, portando a significativi passi avanti nella comprensione di contesti lunghi. Tuttavia, l'aspetto altrettanto cruciale della generazione di output di lunga durata ha ricevuto un'attenzione comparativamente minore. Questo articolo propone un cambiamento di paradigma nella ricerca NLP verso la risoluzione delle sfide legate alla generazione di output lunghi. Compiti come la scrittura di romanzi, la pianificazione a lungo termine e il ragionamento complesso richiedono ai modelli di comprendere contesti estesi e produrre testi estesi coerenti, ricchi di contesto e logicamente consistenti. Queste esigenze evidenziano un divario critico nelle capacità attuali degli LLM. Sottolineiamo l'importanza di questo dominio poco esplorato e sollecitiamo sforzi mirati per sviluppare LLM fondamentali progettati per generare output di lunga durata di alta qualità, che hanno un enorme potenziale per applicazioni nel mondo reale.
English
Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.
PDF222March 14, 2025