ChatPaper.aiChatPaper

BordIRlines: Ein Datensatz zur Bewertung von Cross-lingual Retrieval-Augmented Generation

BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation

October 2, 2024
Autoren: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI

Zusammenfassung

Große Sprachmodelle zeichnen sich durch kreative Generierung aus, haben jedoch weiterhin mit den Problemen der Halluzination und Voreingenommenheit zu kämpfen. Während die abrufgestützte Generierung (RAG) einen Rahmen für die Verankerung der Antworten von LLMs in genauen und aktuellen Informationen bietet, wirft sie dennoch die Frage der Voreingenommenheit auf: Welche Quellen sollten für die Einbeziehung in den Kontext ausgewählt werden? Und wie sollte ihre Bedeutung gewichtet werden? In diesem Papier untersuchen wir die Herausforderung der cross-lingualen RAG und stellen einen Datensatz vor, um die Robustheit bestehender Systeme bei der Beantwortung von Anfragen zu geopolitischen Streitigkeiten zu untersuchen, die an der Schnittstelle von linguistischen, kulturellen und politischen Grenzen liegen. Unser Datensatz stammt aus Wikipedia-Seiten mit relevanten Informationen zu den gegebenen Anfragen, und wir untersuchen die Auswirkungen der Einbeziehung zusätzlicher Kontexte sowie die Zusammensetzung dieses Kontextes in Bezug auf Sprache und Quelle auf die Antwort eines LLMs. Unsere Ergebnisse zeigen, dass bestehende RAG-Systeme weiterhin von cross-lingualen Anwendungsfällen herausgefordert werden und unter einem Mangel an Konsistenz leiden, wenn sie mit konkurrierenden Informationen in mehreren Sprachen versorgt werden. Wir präsentieren Fallstudien, um diese Probleme zu veranschaulichen, und skizzieren Schritte für zukünftige Forschung, um diese Herausforderungen anzugehen. Wir stellen unseren Datensatz und den Code öffentlich unter https://github.com/manestay/bordIRlines zur Verfügung.
English
Large language models excel at creative generation but continue to struggle with the issues of hallucination and bias. While retrieval-augmented generation (RAG) provides a framework for grounding LLMs' responses in accurate and up-to-date information, it still raises the question of bias: which sources should be selected for inclusion in the context? And how should their importance be weighted? In this paper, we study the challenge of cross-lingual RAG and present a dataset to investigate the robustness of existing systems at answering queries about geopolitical disputes, which exist at the intersection of linguistic, cultural, and political boundaries. Our dataset is sourced from Wikipedia pages containing information relevant to the given queries and we investigate the impact of including additional context, as well as the composition of this context in terms of language and source, on an LLM's response. Our results show that existing RAG systems continue to be challenged by cross-lingual use cases and suffer from a lack of consistency when they are provided with competing information in multiple languages. We present case studies to illustrate these issues and outline steps for future research to address these challenges. We make our dataset and code publicly available at https://github.com/manestay/bordIRlines.

Summary

AI-Generated Summary

PDF64November 16, 2024