BordIRlines: Ein Datensatz zur Bewertung von Cross-lingual Retrieval-Augmented Generation
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Autoren: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Zusammenfassung
Große Sprachmodelle zeichnen sich durch kreative Generierung aus, haben jedoch weiterhin mit den Problemen der Halluzination und Voreingenommenheit zu kämpfen. Während die abrufgestützte Generierung (RAG) einen Rahmen für die Verankerung der Antworten von LLMs in genauen und aktuellen Informationen bietet, wirft sie dennoch die Frage der Voreingenommenheit auf: Welche Quellen sollten für die Einbeziehung in den Kontext ausgewählt werden? Und wie sollte ihre Bedeutung gewichtet werden? In diesem Papier untersuchen wir die Herausforderung der cross-lingualen RAG und stellen einen Datensatz vor, um die Robustheit bestehender Systeme bei der Beantwortung von Anfragen zu geopolitischen Streitigkeiten zu untersuchen, die an der Schnittstelle von linguistischen, kulturellen und politischen Grenzen liegen. Unser Datensatz stammt aus Wikipedia-Seiten mit relevanten Informationen zu den gegebenen Anfragen, und wir untersuchen die Auswirkungen der Einbeziehung zusätzlicher Kontexte sowie die Zusammensetzung dieses Kontextes in Bezug auf Sprache und Quelle auf die Antwort eines LLMs. Unsere Ergebnisse zeigen, dass bestehende RAG-Systeme weiterhin von cross-lingualen Anwendungsfällen herausgefordert werden und unter einem Mangel an Konsistenz leiden, wenn sie mit konkurrierenden Informationen in mehreren Sprachen versorgt werden. Wir präsentieren Fallstudien, um diese Probleme zu veranschaulichen, und skizzieren Schritte für zukünftige Forschung, um diese Herausforderungen anzugehen. Wir stellen unseren Datensatz und den Code öffentlich unter https://github.com/manestay/bordIRlines zur Verfügung.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.Summary
AI-Generated Summary