BordIRlines : un ensemble de données pour évaluer la génération améliorée par la recherche interlingue
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation
October 2, 2024
Auteurs: Bryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
cs.AI
Résumé
Les grands modèles de langage excellent dans la génération créative mais continuent de rencontrer des difficultés liées à l'hallucination et aux biais. Alors que la génération augmentée par récupération (RAG) fournit un cadre pour ancrer les réponses des LLMs dans des informations précises et à jour, elle soulève encore la question des biais : quelles sources devraient être sélectionnées pour être incluses dans le contexte ? Et comment devrait-on pondérer leur importance ? Dans cet article, nous étudions le défi de la RAG interlingue et présentons un ensemble de données pour examiner la robustesse des systèmes existants à répondre à des requêtes sur des litiges géopolitiques, qui se situent à l'intersection des frontières linguistiques, culturelles et politiques. Notre ensemble de données est issu de pages Wikipedia contenant des informations pertinentes pour les requêtes données et nous étudions l'impact de l'inclusion de contextes supplémentaires, ainsi que la composition de ce contexte en termes de langue et de source, sur la réponse d'un LLM. Nos résultats montrent que les systèmes RAG existants continuent d'être mis au défi par des cas d'utilisation interlingues et souffrent d'un manque de cohérence lorsqu'ils sont confrontés à des informations concurrentes dans plusieurs langues. Nous présentons des études de cas pour illustrer ces problèmes et décrivons les étapes pour les futures recherches visant à relever ces défis. Nous mettons notre ensemble de données et notre code à disposition du public sur https://github.com/manestay/bordIRlines.
English
Large language models excel at creative generation but continue to struggle
with the issues of hallucination and bias. While retrieval-augmented generation
(RAG) provides a framework for grounding LLMs' responses in accurate and
up-to-date information, it still raises the question of bias: which sources
should be selected for inclusion in the context? And how should their
importance be weighted? In this paper, we study the challenge of cross-lingual
RAG and present a dataset to investigate the robustness of existing systems at
answering queries about geopolitical disputes, which exist at the intersection
of linguistic, cultural, and political boundaries. Our dataset is sourced from
Wikipedia pages containing information relevant to the given queries and we
investigate the impact of including additional context, as well as the
composition of this context in terms of language and source, on an LLM's
response. Our results show that existing RAG systems continue to be challenged
by cross-lingual use cases and suffer from a lack of consistency when they are
provided with competing information in multiple languages. We present case
studies to illustrate these issues and outline steps for future research to
address these challenges. We make our dataset and code publicly available at
https://github.com/manestay/bordIRlines.Summary
AI-Generated Summary