ChatPaper.aiChatPaper

L-CiteEval: Os Modelos de Longo Contexto Realmente Aproveitam o Contexto para Responder?

L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

October 3, 2024
Autores: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI

Resumo

Os modelos de contexto longo (LCMs) deram passos notáveis nos últimos anos, oferecendo aos usuários grande conveniência para lidar com tarefas que envolvem longos contextos, como a sumarização de documentos. À medida que a comunidade prioriza cada vez mais a fidelidade dos resultados gerados, garantir apenas a precisão das saídas dos LCMs é insuficiente, pois é bastante desafiador para os humanos verificar os resultados a partir de contextos extremamente longos. No entanto, embora alguns esforços tenham sido feitos para avaliar se os LCMs respondem verdadeiramente com base no contexto, esses trabalhos são limitados a tarefas específicas ou dependem fortemente de recursos de avaliação externos como o GPT-4. Neste trabalho, apresentamos o L-CiteEval, um benchmark multi-tarefa abrangente para compreensão de longo contexto com citações, com o objetivo de avaliar tanto a capacidade de compreensão quanto a fidelidade dos LCMs. O L-CiteEval abrange 11 tarefas de domínios diversos, com comprimentos de contexto variando de 8K a 48K, e fornece uma suíte de avaliação totalmente automatizada. Ao testar 11 LCMs de ponta, tanto de código fechado quanto de código aberto, descobrimos que, embora esses modelos apresentem pequenas diferenças em seus resultados gerados, os modelos de código aberto ficam significativamente atrás de seus equivalentes de código fechado em termos de precisão e recall de citações. Isso sugere que os LCMs de código aberto atuais têm propensão a responder com base em seu conhecimento inerente em vez do contexto fornecido, representando um risco significativo para a experiência do usuário em aplicações práticas. Também avaliamos a abordagem RAG e observamos que o RAG pode melhorar significativamente a fidelidade dos LCMs, embora com uma leve diminuição na qualidade da geração. Além disso, descobrimos uma correlação entre os mecanismos de atenção dos LCMs e o processo de geração de citações.
English
Long-context models (LCMs) have made remarkable strides in recent years, offering users great convenience for handling tasks that involve long context, such as document summarization. As the community increasingly prioritizes the faithfulness of generated results, merely ensuring the accuracy of LCM outputs is insufficient, as it is quite challenging for humans to verify the results from the extremely lengthy context. Yet, although some efforts have been made to assess whether LCMs respond truly based on the context, these works either are limited to specific tasks or heavily rely on external evaluation resources like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task benchmark for long-context understanding with citations, aiming to evaluate both the understanding capability and faithfulness of LCMs. L-CiteEval covers 11 tasks from diverse domains, spanning context lengths from 8K to 48K, and provides a fully automated evaluation suite. Through testing with 11 cutting-edge closed-source and open-source LCMs, we find that although these models show minor differences in their generated results, open-source models substantially trail behind their closed-source counterparts in terms of citation accuracy and recall. This suggests that current open-source LCMs are prone to responding based on their inherent knowledge rather than the given context, posing a significant risk to the user experience in practical applications. We also evaluate the RAG approach and observe that RAG can significantly improve the faithfulness of LCMs, albeit with a slight decrease in the generation quality. Furthermore, we discover a correlation between the attention mechanisms of LCMs and the citation generation process.
PDF103November 16, 2024