ChatPaper.aiChatPaper

L-CiteEval: Gebruiken lang-contextmodellen echt context om te reageren?

L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

October 3, 2024
Auteurs: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI

Samenvatting

Lang-contextmodellen (LCM's) hebben de afgelopen jaren opmerkelijke vooruitgang geboekt, waardoor gebruikers veel gemak hebben bij het omgaan met taken die lange context vereisen, zoals document samenvatting. Aangezien de gemeenschap steeds meer nadruk legt op de getrouwheid van gegenereerde resultaten, is het niet voldoende om alleen de nauwkeurigheid van LCM-uitvoer te waarborgen, aangezien het voor mensen erg uitdagend is om de resultaten van de extreem lange context te verifiëren. Hoewel er enige inspanningen zijn geleverd om te beoordelen of LCM's daadwerkelijk reageren op basis van de context, zijn deze werken ofwel beperkt tot specifieke taken of sterk afhankelijk van externe evaluatiemiddelen zoals GPT-4. In dit werk introduceren we L-CiteEval, een uitgebreide multi-task benchmark voor begrip van lange context met citaten, met als doel zowel de begripscapaciteit als de getrouwheid van LCM's te evalueren. L-CiteEval bestrijkt 11 taken uit diverse domeinen, met contextlengtes variërend van 8K tot 48K, en biedt een volledig geautomatiseerd evaluatiepakket. Door te testen met 11 toonaangevende gesloten en open-source LCM's, ontdekken we dat hoewel deze modellen kleine verschillen vertonen in hun gegenereerde resultaten, open-source modellen aanzienlijk achterblijven bij hun gesloten-source tegenhangers wat betreft citatienauwkeurigheid en recall. Dit suggereert dat huidige open-source LCM's vatbaar zijn voor reageren op basis van hun inherente kennis in plaats van de gegeven context, wat een aanzienlijk risico vormt voor de gebruikerservaring in praktische toepassingen. We evalueren ook de RAG-benadering en observeren dat RAG de getrouwheid van LCM's aanzienlijk kan verbeteren, zij het met een lichte afname in de generatiekwaliteit. Bovendien ontdekken we een correlatie tussen de aandachtsmechanismen van LCM's en het citatiegeneratieproces.
English
Long-context models (LCMs) have made remarkable strides in recent years, offering users great convenience for handling tasks that involve long context, such as document summarization. As the community increasingly prioritizes the faithfulness of generated results, merely ensuring the accuracy of LCM outputs is insufficient, as it is quite challenging for humans to verify the results from the extremely lengthy context. Yet, although some efforts have been made to assess whether LCMs respond truly based on the context, these works either are limited to specific tasks or heavily rely on external evaluation resources like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task benchmark for long-context understanding with citations, aiming to evaluate both the understanding capability and faithfulness of LCMs. L-CiteEval covers 11 tasks from diverse domains, spanning context lengths from 8K to 48K, and provides a fully automated evaluation suite. Through testing with 11 cutting-edge closed-source and open-source LCMs, we find that although these models show minor differences in their generated results, open-source models substantially trail behind their closed-source counterparts in terms of citation accuracy and recall. This suggests that current open-source LCMs are prone to responding based on their inherent knowledge rather than the given context, posing a significant risk to the user experience in practical applications. We also evaluate the RAG approach and observe that RAG can significantly improve the faithfulness of LCMs, albeit with a slight decrease in the generation quality. Furthermore, we discover a correlation between the attention mechanisms of LCMs and the citation generation process.

Summary

AI-Generated Summary

PDF103November 16, 2024