ChatPaper.aiChatPaper

L-CiteEval: Nutzen Langkontext-Modelle tatsächlich den Kontext, um zu antworten?

L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

October 3, 2024
Autoren: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI

Zusammenfassung

Langzeitkontextmodelle (LCMs) haben in den letzten Jahren bemerkenswerte Fortschritte gemacht und bieten den Benutzern eine große Bequemlichkeit bei der Bewältigung von Aufgaben, die einen langen Kontext erfordern, wie z.B. die Zusammenfassung von Dokumenten. Da die Gemeinschaft zunehmend die Treue der generierten Ergebnisse priorisiert, reicht es nicht aus, lediglich die Genauigkeit der LCM-Ausgaben zu gewährleisten, da es für Menschen sehr herausfordernd ist, die Ergebnisse aus dem äußerst langen Kontext zu überprüfen. Obwohl bereits einige Anstrengungen unternommen wurden, um zu bewerten, ob LCMs tatsächlich auf der Grundlage des Kontexts reagieren, beschränken sich diese Arbeiten entweder auf spezifische Aufgaben oder verlassen sich stark auf externe Evaluationsressourcen wie GPT-4. In dieser Arbeit stellen wir L-CiteEval vor, einen umfassenden Multi-Task-Benchmark für das Verständnis von Langzeitkontext mit Zitaten, der darauf abzielt, sowohl die Verständnisfähigkeit als auch die Treue von LCMs zu bewerten. L-CiteEval umfasst 11 Aufgaben aus verschiedenen Bereichen, die Kontextlängen von 8K bis 48K abdecken, und bietet ein vollautomatisiertes Evaluierungspaket. Durch Tests mit 11 topaktuellen Closed-Source- und Open-Source-LCMs stellen wir fest, dass obwohl diese Modelle geringfügige Unterschiede in ihren generierten Ergebnissen aufweisen, Open-Source-Modelle in Bezug auf Zitationsgenauigkeit und Recall deutlich hinter ihren Closed-Source-Gegenstücken zurückbleiben. Dies legt nahe, dass aktuelle Open-Source-LCMs dazu neigen, auf der Grundlage ihres inhärenten Wissens anstatt des gegebenen Kontexts zu reagieren, was ein erhebliches Risiko für die Benutzererfahrung in praktischen Anwendungen darstellt. Wir bewerten auch den RAG-Ansatz und stellen fest, dass RAG die Treue von LCMs signifikant verbessern kann, wenn auch mit einem leichten Rückgang in der Generierungsqualität. Darüber hinaus entdecken wir eine Korrelation zwischen den Aufmerksamkeitsmechanismen von LCMs und dem Zitationsgenerierungsprozess.
English
Long-context models (LCMs) have made remarkable strides in recent years, offering users great convenience for handling tasks that involve long context, such as document summarization. As the community increasingly prioritizes the faithfulness of generated results, merely ensuring the accuracy of LCM outputs is insufficient, as it is quite challenging for humans to verify the results from the extremely lengthy context. Yet, although some efforts have been made to assess whether LCMs respond truly based on the context, these works either are limited to specific tasks or heavily rely on external evaluation resources like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task benchmark for long-context understanding with citations, aiming to evaluate both the understanding capability and faithfulness of LCMs. L-CiteEval covers 11 tasks from diverse domains, spanning context lengths from 8K to 48K, and provides a fully automated evaluation suite. Through testing with 11 cutting-edge closed-source and open-source LCMs, we find that although these models show minor differences in their generated results, open-source models substantially trail behind their closed-source counterparts in terms of citation accuracy and recall. This suggests that current open-source LCMs are prone to responding based on their inherent knowledge rather than the given context, posing a significant risk to the user experience in practical applications. We also evaluate the RAG approach and observe that RAG can significantly improve the faithfulness of LCMs, albeit with a slight decrease in the generation quality. Furthermore, we discover a correlation between the attention mechanisms of LCMs and the citation generation process.

Summary

AI-Generated Summary

PDF103November 16, 2024