ChatPaper.aiChatPaper

No dejes ningún documento atrás: Evaluación de LLMs de contexto largo con QA multi-documento extendido

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

June 25, 2024
Autores: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI

Resumen

Las capacidades de modelado de contexto largo han captado una atención generalizada, dando lugar a la aparición de Modelos de Lenguaje de Gran Escala (LLMs) con ventanas de contexto ultra extensas. Mientras tanto, los puntos de referencia para evaluar LLMs de contexto largo están gradualmente alcanzando este avance. Sin embargo, los puntos de referencia existentes emplean textos irrelevantes con ruido para extender artificialmente la longitud de los casos de prueba, lo que diverge de los escenarios reales de aplicaciones de contexto largo. Para cerrar esta brecha, proponemos un nuevo punto de referencia de contexto largo, Loong, alineado con escenarios realistas a través de preguntas y respuestas (QA) extendidas de múltiples documentos. A diferencia de la QA típica de documentos, en los casos de prueba de Loong, cada documento es relevante para la respuesta final, y omitir cualquier documento conducirá al fracaso de la respuesta. Además, Loong introduce cuatro tipos de tareas con una variedad de longitudes de contexto: Localización de Foco, Comparación, Agrupamiento y Cadena de Razonamiento, para facilitar una evaluación más realista y completa de la comprensión de contexto largo. Experimentos extensos indican que los modelos de lenguaje de contexto largo existentes aún muestran un potencial considerable de mejora. La generación aumentada con recuperación (RAG) obtiene un rendimiento deficiente, demostrando que Loong puede evaluar de manera confiable las capacidades de modelado de contexto largo del modelo.
English
Long-context modeling capabilities have garnered widespread attention, leading to the emergence of Large Language Models (LLMs) with ultra-context windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually catching up. However, existing benchmarks employ irrelevant noise texts to artificially extend the length of test cases, diverging from the real-world scenarios of long-context applications. To bridge this gap, we propose a novel long-context benchmark, Loong, aligning with realistic scenarios through extended multi-document question answering (QA). Unlike typical document QA, in Loong's test cases, each document is relevant to the final answer, ignoring any document will lead to the failure of the answer. Furthermore, Loong introduces four types of tasks with a range of context lengths: Spotlight Locating, Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic and comprehensive evaluation of long-context understanding. Extensive experiments indicate that existing long-context language models still exhibit considerable potential for enhancement. Retrieval augmented generation (RAG) achieves poor performance, demonstrating that Loong can reliably assess the model's long-context modeling capabilities.

Summary

AI-Generated Summary

PDF171November 29, 2024