L-CiteEval: Действительно ли модели с длинным контекстом эффективно используют контекст для ответов?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
October 3, 2024
Авторы: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI
Аннотация
Модели с длинным контекстом (LCM) в последние годы сделали значительные успехи, предлагая пользователям большое удобство при выполнении задач, требующих длительного контекста, таких как суммирование документов. Поскольку сообщество все более уделяет внимание достоверности сгенерированных результатов, недостаточно просто обеспечить точность выводов LCM, так как для людей довольно сложно проверить результаты из крайне длинного контекста. Однако, хотя были предприняты некоторые усилия для оценки того, отвечают ли LCM действительно на основе контекста, эти работы либо ограничены конкретными задачами, либо сильно полагаются на внешние ресурсы оценки, такие как GPT-4. В данной работе мы представляем L-CiteEval, обширный многозадачный бенчмарк для понимания длинного контекста с цитированием, целью которого является оценка как способности понимания, так и достоверности LCM. L-CiteEval охватывает 11 задач из различных областей, охватывая длину контекста от 8K до 48K, и предоставляет полностью автоматизированный набор оценок. Проведя тестирование с 11 передовыми закрытыми и открытыми LCM, мы обнаружили, что хотя эти модели показывают незначительные различия в сгенерированных результатах, открытые модели значительно уступают закрытым по точности и полноте цитирования. Это указывает на то, что текущие открытые LCM склонны отвечать на основе своих внутренних знаний, а не на основе предоставленного контекста, что представляет значительный риск для пользовательского опыта в практических приложениях. Мы также оценили подход RAG и обнаружили, что RAG может значительно улучшить достоверность LCM, хотя с небольшим снижением качества генерации. Более того, мы обнаружили корреляцию между механизмами внимания LCM и процессом генерации цитат.
English
Long-context models (LCMs) have made remarkable strides in recent years,
offering users great convenience for handling tasks that involve long context,
such as document summarization. As the community increasingly prioritizes the
faithfulness of generated results, merely ensuring the accuracy of LCM outputs
is insufficient, as it is quite challenging for humans to verify the results
from the extremely lengthy context. Yet, although some efforts have been made
to assess whether LCMs respond truly based on the context, these works either
are limited to specific tasks or heavily rely on external evaluation resources
like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task
benchmark for long-context understanding with citations, aiming to evaluate
both the understanding capability and faithfulness of LCMs. L-CiteEval covers
11 tasks from diverse domains, spanning context lengths from 8K to 48K, and
provides a fully automated evaluation suite. Through testing with 11
cutting-edge closed-source and open-source LCMs, we find that although these
models show minor differences in their generated results, open-source models
substantially trail behind their closed-source counterparts in terms of
citation accuracy and recall. This suggests that current open-source LCMs are
prone to responding based on their inherent knowledge rather than the given
context, posing a significant risk to the user experience in practical
applications. We also evaluate the RAG approach and observe that RAG can
significantly improve the faithfulness of LCMs, albeit with a slight decrease
in the generation quality. Furthermore, we discover a correlation between the
attention mechanisms of LCMs and the citation generation process.