Spostare la ricerca sugli LLM a lungo contesto dall'input all'output
Shifting Long-Context LLMs Research from Input to Output
March 6, 2025
Autori: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) con contesto lungo si sono concentrati principalmente sull'elaborazione di contesti di input estesi, portando a significativi passi avanti nella comprensione di contesti lunghi. Tuttavia, l'aspetto altrettanto cruciale della generazione di output di lunga durata ha ricevuto un'attenzione comparativamente minore. Questo articolo propone un cambiamento di paradigma nella ricerca NLP verso la risoluzione delle sfide legate alla generazione di output lunghi. Compiti come la scrittura di romanzi, la pianificazione a lungo termine e il ragionamento complesso richiedono ai modelli di comprendere contesti estesi e produrre testi estesi coerenti, ricchi di contesto e logicamente consistenti. Queste esigenze evidenziano un divario critico nelle capacità attuali degli LLM. Sottolineiamo l'importanza di questo dominio poco esplorato e sollecitiamo sforzi mirati per sviluppare LLM fondamentali progettati per generare output di lunga durata di alta qualità, che hanno un enorme potenziale per applicazioni nel mondo reale.
English
Recent advancements in long-context Large Language Models (LLMs) have
primarily concentrated on processing extended input contexts, resulting in
significant strides in long-context comprehension. However, the equally
critical aspect of generating long-form outputs has received comparatively less
attention. This paper advocates for a paradigm shift in NLP research toward
addressing the challenges of long-output generation. Tasks such as novel
writing, long-term planning, and complex reasoning require models to understand
extensive contexts and produce coherent, contextually rich, and logically
consistent extended text. These demands highlight a critical gap in current LLM
capabilities. We underscore the importance of this under-explored domain and
call for focused efforts to develop foundational LLMs tailored for generating
high-quality, long-form outputs, which hold immense potential for real-world
applications.