L-CiteEval : Les modèles à long contexte exploitent-ils vraiment le contexte pour répondre ?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
October 3, 2024
Auteurs: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI
Résumé
Les modèles à long contexte (LCMs) ont fait d'énormes progrès ces dernières années, offrant aux utilisateurs une grande commodité pour gérer des tâches impliquant un long contexte, telles que la résumé de documents. Alors que la communauté accorde de plus en plus d'importance à la fidélité des résultats générés, il n'est pas suffisant de simplement garantir l'exactitude des sorties des LCM, car il est très difficile pour les humains de vérifier les résultats à partir d'un contexte extrêmement long. Cependant, bien que certains efforts aient été déployés pour évaluer si les LCM répondent véritablement en fonction du contexte, ces travaux se limitent soit à des tâches spécifiques, soit dépendent fortement de ressources d'évaluation externes comme GPT-4. Dans ce travail, nous introduisons L-CiteEval, un banc d'essai multi-tâches complet pour la compréhension à long contexte avec citations, visant à évaluer à la fois la capacité de compréhension et la fidélité des LCMs. L-CiteEval couvre 11 tâches de domaines divers, allant de longueurs de contexte de 8K à 48K, et fournit une suite d'évaluation entièrement automatisée. En testant 11 LCMs de pointe à code source fermé et à code source ouvert, nous constatons que bien que ces modèles présentent des différences mineures dans leurs résultats générés, les modèles à code source ouvert accusent un retard substantiel par rapport à leurs homologues à code source fermé en termes de précision et de rappel des citations. Cela suggère que les LCMs à code source ouvert actuels ont tendance à répondre en fonction de leurs connaissances inhérentes plutôt que du contexte donné, ce qui représente un risque significatif pour l'expérience utilisateur dans les applications pratiques. Nous évaluons également l'approche RAG et observons que RAG peut améliorer significativement la fidélité des LCMs, bien qu'avec une légère diminution de la qualité de génération. De plus, nous découvrons une corrélation entre les mécanismes d'attention des LCMs et le processus de génération de citations.
English
Long-context models (LCMs) have made remarkable strides in recent years,
offering users great convenience for handling tasks that involve long context,
such as document summarization. As the community increasingly prioritizes the
faithfulness of generated results, merely ensuring the accuracy of LCM outputs
is insufficient, as it is quite challenging for humans to verify the results
from the extremely lengthy context. Yet, although some efforts have been made
to assess whether LCMs respond truly based on the context, these works either
are limited to specific tasks or heavily rely on external evaluation resources
like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task
benchmark for long-context understanding with citations, aiming to evaluate
both the understanding capability and faithfulness of LCMs. L-CiteEval covers
11 tasks from diverse domains, spanning context lengths from 8K to 48K, and
provides a fully automated evaluation suite. Through testing with 11
cutting-edge closed-source and open-source LCMs, we find that although these
models show minor differences in their generated results, open-source models
substantially trail behind their closed-source counterparts in terms of
citation accuracy and recall. This suggests that current open-source LCMs are
prone to responding based on their inherent knowledge rather than the given
context, posing a significant risk to the user experience in practical
applications. We also evaluate the RAG approach and observe that RAG can
significantly improve the faithfulness of LCMs, albeit with a slight decrease
in the generation quality. Furthermore, we discover a correlation between the
attention mechanisms of LCMs and the citation generation process.Summary
AI-Generated Summary