L-CiteEval:長い文脈モデルは本当に回答のために文脈を活用しているか?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
October 3, 2024
著者: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI
要旨
長い文脈モデル(LCMs)は、近年著しい進歩を遂げ、文書要約などの長い文脈を含むタスクを処理する際にユーザーに大きな利便性を提供しています。生成された結果の忠実性がコミュニティでますます重視される中、単にLCMの出力の正確性を確保するだけでは不十分です。極めて長い文脈からの結果を人間が検証することは非常に困難です。一部の努力が長い文脈に基づいてLCMが適切に応答しているかどうかを評価しようとしていますが、これらの作業は特定のタスクに限定されているか、GPT-4などの外部評価リソースに大きく依存しています。本研究では、引用を含む長い文脈の理解のための包括的なマルチタスクベンチマークであるL-CiteEvalを紹介し、LCMの理解能力と忠実性の両方を評価することを目指しています。L-CiteEvalは、8Kから48Kまでの文脈長を対象とした多様なドメインからの11のタスクをカバーし、完全自動化された評価スイートを提供しています。11の最先端のクローズドソースおよびオープンソースのLCMを用いたテストを通じて、これらのモデルは生成された結果にわずかな違いが見られますが、オープンソースのモデルは引用の正確性と再現率の点でクローズドソースのモデルに大きく劣っていることがわかりました。現在のオープンソースのLCMは、与えられた文脈ではなく固有の知識に基づいて応答する傾向があり、実用的なアプリケーションにおけるユーザーエクスペリエンスに重大なリスクをもたらす可能性があります。また、RAGアプローチを評価し、RAGがLCMの忠実性を大幅に向上させることができるが、生成品質はわずかに低下することを観察しました。さらに、LCMの注意機構と引用生成プロセスとの相関関係を発見しました。
English
Long-context models (LCMs) have made remarkable strides in recent years,
offering users great convenience for handling tasks that involve long context,
such as document summarization. As the community increasingly prioritizes the
faithfulness of generated results, merely ensuring the accuracy of LCM outputs
is insufficient, as it is quite challenging for humans to verify the results
from the extremely lengthy context. Yet, although some efforts have been made
to assess whether LCMs respond truly based on the context, these works either
are limited to specific tasks or heavily rely on external evaluation resources
like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task
benchmark for long-context understanding with citations, aiming to evaluate
both the understanding capability and faithfulness of LCMs. L-CiteEval covers
11 tasks from diverse domains, spanning context lengths from 8K to 48K, and
provides a fully automated evaluation suite. Through testing with 11
cutting-edge closed-source and open-source LCMs, we find that although these
models show minor differences in their generated results, open-source models
substantially trail behind their closed-source counterparts in terms of
citation accuracy and recall. This suggests that current open-source LCMs are
prone to responding based on their inherent knowledge rather than the given
context, posing a significant risk to the user experience in practical
applications. We also evaluate the RAG approach and observe that RAG can
significantly improve the faithfulness of LCMs, albeit with a slight decrease
in the generation quality. Furthermore, we discover a correlation between the
attention mechanisms of LCMs and the citation generation process.