Não Deixar Nenhum Documento para Trás: Avaliando o Desempenho de LLMs de Longo Contexto com Perguntas em Múltiplos Documentos Estendidos
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
June 25, 2024
Autores: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li
cs.AI
Resumo
As capacidades de modelagem de longo contexto têm recebido ampla atenção, levando ao surgimento de Modelos de Linguagem Grandes (LLMs) com janelas de ultracontexto. Enquanto isso, os benchmarks para avaliar LLMs de longo contexto estão gradualmente se atualizando. No entanto, os benchmarks existentes utilizam textos de ruído irrelevantes para estender artificialmente o comprimento dos casos de teste, divergindo dos cenários do mundo real de aplicações de longo contexto. Para preencher essa lacuna, propomos um novo benchmark de longo contexto, Loong, alinhado com cenários realistas por meio de perguntas e respostas (QA) estendidas de múltiplos documentos. Ao contrário do QA de documentos típico, nos casos de teste do Loong, cada documento é relevante para a resposta final, ignorar qualquer documento levará à falha da resposta. Além disso, o Loong introduz quatro tipos de tarefas com uma variedade de comprimentos de contexto: Localização de Destaque, Comparação, Agrupamento e Cadeia de Raciocínio, para facilitar uma avaliação mais realista e abrangente da compreensão de longo contexto. Experimentos extensos indicam que os modelos de linguagem de longo contexto existentes ainda apresentam um potencial considerável para aprimoramento. A geração aumentada por recuperação (RAG) alcança baixo desempenho, demonstrando que o Loong pode avaliar de forma confiável as capacidades de modelagem de longo contexto do modelo.
English
Long-context modeling capabilities have garnered widespread attention,
leading to the emergence of Large Language Models (LLMs) with ultra-context
windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually
catching up. However, existing benchmarks employ irrelevant noise texts to
artificially extend the length of test cases, diverging from the real-world
scenarios of long-context applications. To bridge this gap, we propose a novel
long-context benchmark, Loong, aligning with realistic scenarios through
extended multi-document question answering (QA). Unlike typical document QA, in
Loong's test cases, each document is relevant to the final answer, ignoring any
document will lead to the failure of the answer. Furthermore, Loong introduces
four types of tasks with a range of context lengths: Spotlight Locating,
Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic
and comprehensive evaluation of long-context understanding. Extensive
experiments indicate that existing long-context language models still exhibit
considerable potential for enhancement. Retrieval augmented generation (RAG)
achieves poor performance, demonstrating that Loong can reliably assess the
model's long-context modeling capabilities.