BordIRlines: Un conjunto de datos para evaluar la generación aumentada con recuperación cruzada de lenguajes.
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Autores: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Resumen
Los grandes modelos de lenguaje destacan en la generación creativa pero siguen teniendo dificultades con los problemas de alucinación y sesgo. Mientras que la generación aumentada por recuperación (GAR) proporciona un marco para fundamentar las respuestas de los LLMs en información precisa y actualizada, aún plantea la cuestión del sesgo: ¿qué fuentes deberían ser seleccionadas para su inclusión en el contexto? ¿Y cómo debería ser ponderada su importancia? En este documento, estudiamos el desafío de la GAR interlingüe y presentamos un conjunto de datos para investigar la robustez de los sistemas existentes al responder preguntas sobre disputas geopolíticas, que se encuentran en la intersección de fronteras lingüísticas, culturales y políticas. Nuestro conjunto de datos se obtiene de páginas de Wikipedia que contienen información relevante para las consultas dadas e investigamos el impacto de incluir contexto adicional, así como la composición de este contexto en términos de idioma y fuente, en la respuesta de un LLM. Nuestros resultados muestran que los sistemas de GAR existentes siguen enfrentando desafíos en casos de uso interlingües y sufren de una falta de consistencia cuando se les proporciona información competidora en varios idiomas. Presentamos estudios de caso para ilustrar estos problemas y delineamos pasos para futuras investigaciones que aborden estos desafíos. Ponemos nuestro conjunto de datos y código a disposición del público en https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.Summary
AI-Generated Summary