L-CiteEval: I modelli a lungo contesto sfruttano veramente il contesto per rispondere?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
October 3, 2024
Autori: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI
Abstract
I modelli a lungo contesto (LCM) hanno compiuto progressi notevoli negli ultimi anni, offrendo agli utenti un'enorme comodità nel gestire compiti che coinvolgono un contesto lungo, come la riassunzione di documenti. Poiché la comunità sta sempre più dando priorità alla fedeltà dei risultati generati, garantire semplicemente l'accuratezza delle uscite dei LCM non è sufficiente, poiché è molto difficile per gli esseri umani verificare i risultati provenienti da contesti estremamente lunghi. Tuttavia, sebbene siano stati compiuti sforzi per valutare se i LCM rispondono veramente in base al contesto, questi lavori sono limitati a specifici compiti o dipendono fortemente da risorse di valutazione esterne come GPT-4. In questo lavoro, presentiamo L-CiteEval, un benchmark multi-task completo per la comprensione del lungo contesto con citazioni, mirato a valutare sia la capacità di comprensione che la fedeltà dei LCM. L-CiteEval copre 11 compiti provenienti da domini diversi, con lunghezze di contesto che vanno da 8K a 48K, e fornisce una suite di valutazione completamente automatizzata. Attraverso i test condotti su 11 LCM di ultima generazione sia closed-source che open-source, abbiamo scoperto che sebbene questi modelli mostrino lievi differenze nei risultati generati, i modelli open-source sono significativamente inferiori ai loro omologhi closed-source in termini di accuratezza e recall delle citazioni. Questo suggerisce che i LCM open-source attuali tendono a rispondere in base alla loro conoscenza intrinseca piuttosto che al contesto fornito, rappresentando un rischio significativo per l'esperienza dell'utente nelle applicazioni pratiche. Valutiamo anche l'approccio RAG e osserviamo che RAG può migliorare significativamente la fedeltà dei LCM, sebbene con una leggera diminuzione della qualità della generazione. Inoltre, scopriamo una correlazione tra i meccanismi di attenzione dei LCM e il processo di generazione delle citazioni.
English
Long-context models (LCMs) have made remarkable strides in recent years,
offering users great convenience for handling tasks that involve long context,
such as document summarization. As the community increasingly prioritizes the
faithfulness of generated results, merely ensuring the accuracy of LCM outputs
is insufficient, as it is quite challenging for humans to verify the results
from the extremely lengthy context. Yet, although some efforts have been made
to assess whether LCMs respond truly based on the context, these works either
are limited to specific tasks or heavily rely on external evaluation resources
like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task
benchmark for long-context understanding with citations, aiming to evaluate
both the understanding capability and faithfulness of LCMs. L-CiteEval covers
11 tasks from diverse domains, spanning context lengths from 8K to 48K, and
provides a fully automated evaluation suite. Through testing with 11
cutting-edge closed-source and open-source LCMs, we find that although these
models show minor differences in their generated results, open-source models
substantially trail behind their closed-source counterparts in terms of
citation accuracy and recall. This suggests that current open-source LCMs are
prone to responding based on their inherent knowledge rather than the given
context, posing a significant risk to the user experience in practical
applications. We also evaluate the RAG approach and observe that RAG can
significantly improve the faithfulness of LCMs, albeit with a slight decrease
in the generation quality. Furthermore, we discover a correlation between the
attention mechanisms of LCMs and the citation generation process.