ChatPaper.aiChatPaper

Verlagerung der Langkontext-LLM-Forschung vom Input zum Output

Shifting Long-Context LLMs Research from Input to Output

March 6, 2025
Autoren: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Large Language Models (LLMs) mit langem Kontext haben sich hauptsächlich auf die Verarbeitung umfangreicher Eingabekontexte konzentriert, was zu bedeutenden Fortschritten im Verständnis langer Kontexte geführt hat. Der ebenso kritische Aspekt der Erzeugung langer Ausgaben hat jedoch vergleichsweise weniger Aufmerksamkeit erhalten. Dieses Papier plädiert für einen Paradigmenwechsel in der NLP-Forschung hin zur Bewältigung der Herausforderungen der langen Ausgabegenerierung. Aufgaben wie das Schreiben von Romanen, langfristige Planung und komplexes logisches Denken erfordern, dass Modelle umfangreiche Kontexte verstehen und kohärenten, kontextuell reichhaltigen und logisch konsistenten Langtext erzeugen. Diese Anforderungen verdeutlichen eine kritische Lücke in den aktuellen Fähigkeiten von LLMs. Wir betonen die Bedeutung dieses wenig erforschten Bereichs und fordern gezielte Bemühungen zur Entwicklung grundlegender LLMs, die auf die Erzeugung hochwertiger, langer Ausgaben zugeschnitten sind, die ein immenses Potenzial für reale Anwendungen bergen.
English
Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.

Summary

AI-Generated Summary

PDF222March 14, 2025