ChatPaper.aiChatPaper

BordIRlines: Un conjunto de datos para evaluar la generación aumentada con recuperación cruzada de lenguajes.

BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation

October 2, 2024
Autores: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI

Resumen

Los grandes modelos de lenguaje destacan en la generación creativa pero siguen teniendo dificultades con los problemas de alucinación y sesgo. Mientras que la generación aumentada por recuperación (GAR) proporciona un marco para fundamentar las respuestas de los LLMs en información precisa y actualizada, aún plantea la cuestión del sesgo: ¿qué fuentes deberían ser seleccionadas para su inclusión en el contexto? ¿Y cómo debería ser ponderada su importancia? En este documento, estudiamos el desafío de la GAR interlingüe y presentamos un conjunto de datos para investigar la robustez de los sistemas existentes al responder preguntas sobre disputas geopolíticas, que se encuentran en la intersección de fronteras lingüísticas, culturales y políticas. Nuestro conjunto de datos se obtiene de páginas de Wikipedia que contienen información relevante para las consultas dadas e investigamos el impacto de incluir contexto adicional, así como la composición de este contexto en términos de idioma y fuente, en la respuesta de un LLM. Nuestros resultados muestran que los sistemas de GAR existentes siguen enfrentando desafíos en casos de uso interlingües y sufren de una falta de consistencia cuando se les proporciona información competidora en varios idiomas. Presentamos estudios de caso para ilustrar estos problemas y delineamos pasos para futuras investigaciones que aborden estos desafíos. Ponemos nuestro conjunto de datos y código a disposición del público en https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle with the issues of hallucination and bias. While retrieval-augmented generation (RAG) provides a framework for grounding LLMs' responses in accurate and up-to-date information, it still raises the question of bias: which sources should be selected for inclusion in the context? And how should their importance be weighted? In this paper, we study the challenge of cross-lingual RAG and present a dataset to investigate the robustness of existing systems at answering queries about geopolitical disputes, which exist at the intersection of linguistic, cultural, and political boundaries. Our dataset is sourced from Wikipedia pages containing information relevant to the given queries and we investigate the impact of including additional context, as well as the composition of this context in terms of language and source, on an LLM's response. Our results show that existing RAG systems continue to be challenged by cross-lingual use cases and suffer from a lack of consistency when they are provided with competing information in multiple languages. We present case studies to illustrate these issues and outline steps for future research to address these challenges. We make our dataset and code publicly available at https://github.com/manestay/bordIRlines.

Summary

AI-Generated Summary

PDF64November 16, 2024