CORAL: Evaluación de Referencia para la Generación de Ampliación de Recuperación Conversacional de Múltiples TurnosCORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation
Generation
La Generación con Recuperación (RAG, por sus siglas en inglés) se ha convertido en un paradigma poderoso para mejorar los grandes modelos de lenguaje (LLMs) a través de la recuperación de conocimiento externo. A pesar de su amplia atención, la investigación académica existente se centra predominantemente en RAG de un solo turno, dejando una brecha significativa en el abordaje de las complejidades de las conversaciones de múltiples turnos que se encuentran en aplicaciones del mundo real. Para cerrar esta brecha, presentamos CORAL, un banco de pruebas a gran escala diseñado para evaluar sistemas RAG en entornos conversacionales multi-turn realistas. CORAL incluye conversaciones diversas en busca de información derivadas automáticamente de Wikipedia y aborda desafíos clave como la cobertura de dominio abierto, la intensidad de conocimiento, respuestas de forma libre y cambios de tema. Admite tres tareas principales de RAG conversacional: recuperación de pasajes, generación de respuestas y etiquetado de citas. Proponemos un marco unificado para estandarizar varios métodos de RAG conversacional y realizamos una evaluación exhaustiva de estos métodos en CORAL, demostrando oportunidades sustanciales para mejorar enfoques existentes.