ChatPaper.aiChatPaper

L-CiteEval : Les modèles à long contexte exploitent-ils vraiment le contexte pour répondre ?

L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

October 3, 2024
Auteurs: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI

Résumé

Les modèles à long contexte (LCMs) ont fait d'énormes progrès ces dernières années, offrant aux utilisateurs une grande commodité pour gérer des tâches impliquant un long contexte, telles que la résumé de documents. Alors que la communauté accorde de plus en plus d'importance à la fidélité des résultats générés, il n'est pas suffisant de simplement garantir l'exactitude des sorties des LCM, car il est très difficile pour les humains de vérifier les résultats à partir d'un contexte extrêmement long. Cependant, bien que certains efforts aient été déployés pour évaluer si les LCM répondent véritablement en fonction du contexte, ces travaux se limitent soit à des tâches spécifiques, soit dépendent fortement de ressources d'évaluation externes comme GPT-4. Dans ce travail, nous introduisons L-CiteEval, un banc d'essai multi-tâches complet pour la compréhension à long contexte avec citations, visant à évaluer à la fois la capacité de compréhension et la fidélité des LCMs. L-CiteEval couvre 11 tâches de domaines divers, allant de longueurs de contexte de 8K à 48K, et fournit une suite d'évaluation entièrement automatisée. En testant 11 LCMs de pointe à code source fermé et à code source ouvert, nous constatons que bien que ces modèles présentent des différences mineures dans leurs résultats générés, les modèles à code source ouvert accusent un retard substantiel par rapport à leurs homologues à code source fermé en termes de précision et de rappel des citations. Cela suggère que les LCMs à code source ouvert actuels ont tendance à répondre en fonction de leurs connaissances inhérentes plutôt que du contexte donné, ce qui représente un risque significatif pour l'expérience utilisateur dans les applications pratiques. Nous évaluons également l'approche RAG et observons que RAG peut améliorer significativement la fidélité des LCMs, bien qu'avec une légère diminution de la qualité de génération. De plus, nous découvrons une corrélation entre les mécanismes d'attention des LCMs et le processus de génération de citations.
English
Long-context models (LCMs) have made remarkable strides in recent years, offering users great convenience for handling tasks that involve long context, such as document summarization. As the community increasingly prioritizes the faithfulness of generated results, merely ensuring the accuracy of LCM outputs is insufficient, as it is quite challenging for humans to verify the results from the extremely lengthy context. Yet, although some efforts have been made to assess whether LCMs respond truly based on the context, these works either are limited to specific tasks or heavily rely on external evaluation resources like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task benchmark for long-context understanding with citations, aiming to evaluate both the understanding capability and faithfulness of LCMs. L-CiteEval covers 11 tasks from diverse domains, spanning context lengths from 8K to 48K, and provides a fully automated evaluation suite. Through testing with 11 cutting-edge closed-source and open-source LCMs, we find that although these models show minor differences in their generated results, open-source models substantially trail behind their closed-source counterparts in terms of citation accuracy and recall. This suggests that current open-source LCMs are prone to responding based on their inherent knowledge rather than the given context, posing a significant risk to the user experience in practical applications. We also evaluate the RAG approach and observe that RAG can significantly improve the faithfulness of LCMs, albeit with a slight decrease in the generation quality. Furthermore, we discover a correlation between the attention mechanisms of LCMs and the citation generation process.

Summary

AI-Generated Summary

PDF103November 16, 2024