BOSQUEJO: Comprensión de texto mejorada con conocimiento estructurado para recuperación holística
SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval
December 19, 2024
Autores: Aakash Mahalingam, Vinesh Kumar Gande, Aman Chadha, Vinija Jain, Divya Chaudhary
cs.AI
Resumen
Los sistemas de Generación con Recuperación Aumentada (RAG, por sus siglas en inglés) se han vuelto fundamentales para aprovechar vastos corpus con el fin de generar respuestas informadas y contextualmente relevantes, reduciendo notablemente las alucinaciones en los Modelos de Lenguaje a Gran Escala. A pesar de los avances significativos, estos sistemas luchan por procesar y recuperar información de conjuntos de datos extensos de manera eficiente, manteniendo al mismo tiempo una comprensión integral del contexto. Este artículo presenta SKETCH, una metodología novedosa que mejora el proceso de recuperación de RAG al integrar la recuperación semántica de texto con grafos de conocimiento, fusionando así datos estructurados y no estructurados para una comprensión más holística. SKETCH demuestra mejoras sustanciales en el rendimiento de recuperación y mantiene una integridad de contexto superior en comparación con métodos tradicionales. Evaluado en cuatro conjuntos de datos diversos: QuALITY, QASPER, NarrativeQA y Italian Cuisine, SKETCH supera consistentemente los enfoques de referencia en métricas clave de RAGAS como relevancia_respuesta, fidelidad, precisión_contexto y recuperación_contexto. Destacadamente, en el conjunto de datos de Cocina Italiana, SKETCH logró una relevancia de respuesta de 0.94 y una precisión de contexto de 0.99, representando el mejor rendimiento en todas las métricas evaluadas. Estos resultados resaltan la capacidad de SKETCH para ofrecer respuestas más precisas y contextualmente relevantes, estableciendo nuevos estándares para futuros sistemas de recuperación.
English
Retrieval-Augmented Generation (RAG) systems have become pivotal in
leveraging vast corpora to generate informed and contextually relevant
responses, notably reducing hallucinations in Large Language Models. Despite
significant advancements, these systems struggle to efficiently process and
retrieve information from large datasets while maintaining a comprehensive
understanding of the context. This paper introduces SKETCH, a novel methodology
that enhances the RAG retrieval process by integrating semantic text retrieval
with knowledge graphs, thereby merging structured and unstructured data for a
more holistic comprehension. SKETCH, demonstrates substantial improvements in
retrieval performance and maintains superior context integrity compared to
traditional methods. Evaluated across four diverse datasets: QuALITY, QASPER,
NarrativeQA, and Italian Cuisine-SKETCH consistently outperforms baseline
approaches on key RAGAS metrics such as answer_relevancy, faithfulness,
context_precision and context_recall. Notably, on the Italian Cuisine dataset,
SKETCH achieved an answer relevancy of 0.94 and a context precision of 0.99,
representing the highest performance across all evaluated metrics. These
results highlight SKETCH's capability in delivering more accurate and
contextually relevant responses, setting new benchmarks for future retrieval
systems.Summary
AI-Generated Summary