ChatPaper.aiChatPaper

L-CiteEval: ¿Los modelos de largo contexto realmente aprovechan el contexto para responder?

L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?

October 3, 2024
Autores: Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
cs.AI

Resumen

Los modelos de contexto largo (LCMs) han avanzado notablemente en los últimos años, ofreciendo a los usuarios una gran comodidad para manejar tareas que implican un contexto extenso, como la sumarización de documentos. A medida que la comunidad prioriza cada vez más la fidelidad de los resultados generados, simplemente garantizar la precisión de las salidas de LCM resulta insuficiente, dado que resulta bastante desafiante para los humanos verificar los resultados a partir de un contexto extremadamente extenso. Sin embargo, aunque se han realizado algunos esfuerzos para evaluar si los LCMs responden verdaderamente basándose en el contexto, estos trabajos se limitan a tareas específicas o dependen en gran medida de recursos de evaluación externos como GPT-4. En este trabajo, presentamos L-CiteEval, un completo banco de pruebas multi-tarea para la comprensión de contextos largos con citas, con el objetivo de evaluar tanto la capacidad de comprensión como la fidelidad de los LCMs. L-CiteEval abarca 11 tareas de diversos ámbitos, que van desde longitudes de contexto de 8K a 48K, y proporciona un conjunto de evaluación completamente automatizado. A través de pruebas con 11 LCMs de vanguardia de código cerrado y de código abierto, observamos que aunque estos modelos muestran diferencias menores en sus resultados generados, los modelos de código abierto quedan significativamente rezagados respecto a sus contrapartes de código cerrado en cuanto a la precisión y recuperación de citas. Esto sugiere que los LCMs de código abierto actuales tienden a responder basándose en su conocimiento inherente en lugar del contexto dado, lo que representa un riesgo significativo para la experiencia del usuario en aplicaciones prácticas. También evaluamos el enfoque RAG y observamos que RAG puede mejorar significativamente la fidelidad de los LCMs, aunque con una ligera disminución en la calidad de generación. Además, descubrimos una correlación entre los mecanismos de atención de los LCMs y el proceso de generación de citas.
English
Long-context models (LCMs) have made remarkable strides in recent years, offering users great convenience for handling tasks that involve long context, such as document summarization. As the community increasingly prioritizes the faithfulness of generated results, merely ensuring the accuracy of LCM outputs is insufficient, as it is quite challenging for humans to verify the results from the extremely lengthy context. Yet, although some efforts have been made to assess whether LCMs respond truly based on the context, these works either are limited to specific tasks or heavily rely on external evaluation resources like GPT-4.In this work, we introduce L-CiteEval, a comprehensive multi-task benchmark for long-context understanding with citations, aiming to evaluate both the understanding capability and faithfulness of LCMs. L-CiteEval covers 11 tasks from diverse domains, spanning context lengths from 8K to 48K, and provides a fully automated evaluation suite. Through testing with 11 cutting-edge closed-source and open-source LCMs, we find that although these models show minor differences in their generated results, open-source models substantially trail behind their closed-source counterparts in terms of citation accuracy and recall. This suggests that current open-source LCMs are prone to responding based on their inherent knowledge rather than the given context, posing a significant risk to the user experience in practical applications. We also evaluate the RAG approach and observe that RAG can significantly improve the faithfulness of LCMs, albeit with a slight decrease in the generation quality. Furthermore, we discover a correlation between the attention mechanisms of LCMs and the citation generation process.
PDF103November 16, 2024