BordIRlines: un insieme di dati per valutare la generazione potenziata da recupero cross-linguistico.
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Autori: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Abstract
I grandi modelli linguistici eccellono nella generazione creativa ma continuano a lottare con le problematiche legate all'allucinazione e al bias. Mentre la generazione potenziata da recupero (RAG) fornisce un quadro per ancorare le risposte dei LLM in informazioni accurate e aggiornate, solleva comunque la questione del bias: quali fonti dovrebbero essere selezionate per essere incluse nel contesto? E come dovrebbe essere ponderata la loro importanza? In questo articolo, studiamo la sfida della RAG cross-linguistica e presentiamo un dataset per indagare la robustezza dei sistemi esistenti nel rispondere a interrogativi su dispute geopolitiche, che si trovano all'incrocio di confini linguistici, culturali e politici. Il nostro dataset è tratto da pagine di Wikipedia contenenti informazioni rilevanti per gli interrogativi dati e indaghiamo l'impatto dell'inclusione di contesto aggiuntivo, nonché la composizione di questo contesto in termini di lingua e fonte, sulla risposta di un LLM. I nostri risultati mostrano che i sistemi RAG esistenti continuano ad essere sfidati dai casi d'uso cross-linguistici e soffrono di una mancanza di coerenza quando vengono fornite informazioni contrastanti in più lingue. Presentiamo casi studio per illustrare queste problematiche e delineare passi per futuri studi per affrontare queste sfide. Mettiamo a disposizione pubblicamente il nostro dataset e codice su https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.