BordIRlines: Um Conjunto de Dados para Avaliar a Geração Aprimorada por Recuperação Cruzada de Linguagens
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Autores: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Resumo
Grandes modelos de linguagem se destacam na geração criativa, mas ainda lutam com os problemas de alucinação e viés. Enquanto a geração aumentada por recuperação (RAG) fornece um framework para fundamentar as respostas dos LLMs em informações precisas e atualizadas, ainda levanta a questão do viés: quais fontes devem ser selecionadas para inclusão no contexto? E como deve ser ponderada sua importância? Neste artigo, estudamos o desafio do RAG multilíngue e apresentamos um conjunto de dados para investigar a robustez dos sistemas existentes ao responder a consultas sobre disputas geopolíticas, que existem no cruzamento de fronteiras linguísticas, culturais e políticas. Nosso conjunto de dados é proveniente de páginas da Wikipedia contendo informações relevantes para as consultas fornecidas e investigamos o impacto da inclusão de contexto adicional, bem como a composição desse contexto em termos de idioma e fonte, na resposta de um LLM. Nossos resultados mostram que os sistemas RAG existentes continuam a ser desafiados por casos de uso multilíngues e sofrem de falta de consistência quando são fornecidas com informações concorrentes em vários idiomas. Apresentamos estudos de caso para ilustrar essas questões e delineamos passos para futuras pesquisas abordarem esses desafios. Disponibilizamos nosso conjunto de dados e código publicamente em https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.Summary
AI-Generated Summary