Déplacer la recherche sur les LLMs à contexte long de l'entrée vers la sortie
Shifting Long-Context LLMs Research from Input to Output
March 6, 2025
Auteurs: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI
Résumé
Les récentes avancées dans les modèles de langage à grand contexte (LLMs) se sont principalement concentrées sur le traitement de contextes d'entrée étendus, ce qui a permis des progrès significatifs dans la compréhension de contextes longs. Cependant, l'aspect tout aussi crucial de la génération de sorties longues a reçu relativement moins d'attention. Cet article plaide pour un changement de paradigme dans la recherche en NLP afin de relever les défis de la génération de sorties longues. Des tâches telles que l'écriture de romans, la planification à long terme et le raisonnement complexe exigent que les modèles comprennent des contextes étendus et produisent des textes cohérents, riches en contexte et logiquement consistants. Ces exigences mettent en lumière une lacune critique dans les capacités actuelles des LLMs. Nous soulignons l'importance de ce domaine encore peu exploré et appelons à des efforts ciblés pour développer des LLMs fondamentaux spécialement conçus pour générer des sorties longues de haute qualité, qui présentent un immense potentiel pour des applications réelles.
English
Recent advancements in long-context Large Language Models (LLMs) have
primarily concentrated on processing extended input contexts, resulting in
significant strides in long-context comprehension. However, the equally
critical aspect of generating long-form outputs has received comparatively less
attention. This paper advocates for a paradigm shift in NLP research toward
addressing the challenges of long-output generation. Tasks such as novel
writing, long-term planning, and complex reasoning require models to understand
extensive contexts and produce coherent, contextually rich, and logically
consistent extended text. These demands highlight a critical gap in current LLM
capabilities. We underscore the importance of this under-explored domain and
call for focused efforts to develop foundational LLMs tailored for generating
high-quality, long-form outputs, which hold immense potential for real-world
applications.Summary
AI-Generated Summary