Verlagerung der Langkontext-LLM-Forschung vom Input zum Output
Shifting Long-Context LLMs Research from Input to Output
March 6, 2025
Autoren: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Language Models (LLMs) mit langem Kontext haben sich hauptsächlich auf die Verarbeitung umfangreicher Eingabekontexte konzentriert, was zu bedeutenden Fortschritten im Verständnis langer Kontexte geführt hat. Der ebenso kritische Aspekt der Erzeugung langer Ausgaben hat jedoch vergleichsweise weniger Aufmerksamkeit erhalten. Dieses Papier plädiert für einen Paradigmenwechsel in der NLP-Forschung hin zur Bewältigung der Herausforderungen der langen Ausgabegenerierung. Aufgaben wie das Schreiben von Romanen, langfristige Planung und komplexes logisches Denken erfordern, dass Modelle umfangreiche Kontexte verstehen und kohärenten, kontextuell reichhaltigen und logisch konsistenten Langtext erzeugen. Diese Anforderungen verdeutlichen eine kritische Lücke in den aktuellen Fähigkeiten von LLMs. Wir betonen die Bedeutung dieses wenig erforschten Bereichs und fordern gezielte Bemühungen zur Entwicklung grundlegender LLMs, die auf die Erzeugung hochwertiger, langer Ausgaben zugeschnitten sind, die ein immenses Potenzial für reale Anwendungen bergen.
English
Recent advancements in long-context Large Language Models (LLMs) have
primarily concentrated on processing extended input contexts, resulting in
significant strides in long-context comprehension. However, the equally
critical aspect of generating long-form outputs has received comparatively less
attention. This paper advocates for a paradigm shift in NLP research toward
addressing the challenges of long-output generation. Tasks such as novel
writing, long-term planning, and complex reasoning require models to understand
extensive contexts and produce coherent, contextually rich, and logically
consistent extended text. These demands highlight a critical gap in current LLM
capabilities. We underscore the importance of this under-explored domain and
call for focused efforts to develop foundational LLMs tailored for generating
high-quality, long-form outputs, which hold immense potential for real-world
applications.Summary
AI-Generated Summary