ChatPaper.aiChatPaper

Desplazando la investigación de LLMs de contexto largo desde la entrada hacia la salida

Shifting Long-Context LLMs Research from Input to Output

March 6, 2025
Autores: Yuhao Wu, Yushi Bai, Zhiqing Hu, Shangqing Tu, Ming Shan Hee, Juanzi Li, Roy Ka-Wei Lee
cs.AI

Resumen

Los avances recientes en los modelos de lenguaje de gran contexto (LLMs, por sus siglas en inglés) se han centrado principalmente en procesar contextos de entrada extensos, lo que ha resultado en avances significativos en la comprensión de contextos largos. Sin embargo, el aspecto igualmente crítico de generar salidas de formato extenso ha recibido una atención comparativamente menor. Este artículo aboga por un cambio de paradigma en la investigación de PLN hacia la resolución de los desafíos de la generación de salidas largas. Tareas como la escritura de novelas, la planificación a largo plazo y el razonamiento complejo requieren que los modelos comprendan contextos extensos y produzcan textos prolongados coherentes, contextualmente ricos y lógicamente consistentes. Estas demandas destacan una brecha crítica en las capacidades actuales de los LLMs. Subrayamos la importancia de este dominio poco explorado y hacemos un llamado para enfocar esfuerzos en desarrollar LLMs fundamentales diseñados para generar salidas de formato extenso de alta calidad, las cuales tienen un inmenso potencial para aplicaciones en el mundo real.
English
Recent advancements in long-context Large Language Models (LLMs) have primarily concentrated on processing extended input contexts, resulting in significant strides in long-context comprehension. However, the equally critical aspect of generating long-form outputs has received comparatively less attention. This paper advocates for a paradigm shift in NLP research toward addressing the challenges of long-output generation. Tasks such as novel writing, long-term planning, and complex reasoning require models to understand extensive contexts and produce coherent, contextually rich, and logically consistent extended text. These demands highlight a critical gap in current LLM capabilities. We underscore the importance of this under-explored domain and call for focused efforts to develop foundational LLMs tailored for generating high-quality, long-form outputs, which hold immense potential for real-world applications.

Summary

AI-Generated Summary

PDF222March 14, 2025