ChatPaper.aiChatPaper

CORAL: Evaluación de Referencia para la Generación de Ampliación de Recuperación Conversacional de Múltiples Turnos

CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

October 30, 2024
Autores: Yiruo Cheng, Kelong Mao, Ziliang Zhao, Guanting Dong, Hongjin Qian, Yongkang Wu, Tetsuya Sakai, Ji-Rong Wen, Zhicheng Dou
cs.AI

Resumen

La Generación con Recuperación (RAG, por sus siglas en inglés) se ha convertido en un paradigma poderoso para mejorar los grandes modelos de lenguaje (LLMs) a través de la recuperación de conocimiento externo. A pesar de su amplia atención, la investigación académica existente se centra predominantemente en RAG de un solo turno, dejando una brecha significativa en el abordaje de las complejidades de las conversaciones de múltiples turnos que se encuentran en aplicaciones del mundo real. Para cerrar esta brecha, presentamos CORAL, un banco de pruebas a gran escala diseñado para evaluar sistemas RAG en entornos conversacionales multi-turn realistas. CORAL incluye conversaciones diversas en busca de información derivadas automáticamente de Wikipedia y aborda desafíos clave como la cobertura de dominio abierto, la intensidad de conocimiento, respuestas de forma libre y cambios de tema. Admite tres tareas principales de RAG conversacional: recuperación de pasajes, generación de respuestas y etiquetado de citas. Proponemos un marco unificado para estandarizar varios métodos de RAG conversacional y realizamos una evaluación exhaustiva de estos métodos en CORAL, demostrando oportunidades sustanciales para mejorar enfoques existentes.
English
Retrieval-Augmented Generation (RAG) has become a powerful paradigm for enhancing large language models (LLMs) through external knowledge retrieval. Despite its widespread attention, existing academic research predominantly focuses on single-turn RAG, leaving a significant gap in addressing the complexities of multi-turn conversations found in real-world applications. To bridge this gap, we introduce CORAL, a large-scale benchmark designed to assess RAG systems in realistic multi-turn conversational settings. CORAL includes diverse information-seeking conversations automatically derived from Wikipedia and tackles key challenges such as open-domain coverage, knowledge intensity, free-form responses, and topic shifts. It supports three core tasks of conversational RAG: passage retrieval, response generation, and citation labeling. We propose a unified framework to standardize various conversational RAG methods and conduct a comprehensive evaluation of these methods on CORAL, demonstrating substantial opportunities for improving existing approaches.

Summary

AI-Generated Summary

PDF563November 16, 2024