BordIRlines : un ensemble de données pour évaluer la génération améliorée par la recherche interlingue

papers.abstract

Les grands modèles de langage excellent dans la génération créative mais continuent de rencontrer des difficultés liées à l'hallucination et aux biais. Alors que la génération augmentée par récupération (RAG) fournit un cadre pour ancrer les réponses des LLMs dans des informations précises et à jour, elle soulève encore la question des biais : quelles sources devraient être sélectionnées pour être incluses dans le contexte ? Et comment devrait-on pondérer leur importance ? Dans cet article, nous étudions le défi de la RAG interlingue et présentons un ensemble de données pour examiner la robustesse des systèmes existants à répondre à des requêtes sur des litiges géopolitiques, qui se situent à l'intersection des frontières linguistiques, culturelles et politiques. Notre ensemble de données est issu de pages Wikipedia contenant des informations pertinentes pour les requêtes données et nous étudions l'impact de l'inclusion de contextes supplémentaires, ainsi que la composition de ce contexte en termes de langue et de source, sur la réponse d'un LLM. Nos résultats montrent que les systèmes RAG existants continuent d'être mis au défi par des cas d'utilisation interlingues et souffrent d'un manque de cohérence lorsqu'ils sont confrontés à des informations concurrentes dans plusieurs langues. Nous présentons des études de cas pour illustrer ces problèmes et décrivons les étapes pour les futures recherches visant à relever ces défis. Nous mettons notre ensemble de données et notre code à disposition du public sur https://github.com/manestay/bordIRlines.

English

Large language models excel at creative generation but continue to struggle with the issues of hallucination and bias. While retrieval-augmented generation (RAG) provides a framework for grounding LLMs' responses in accurate and up-to-date information, it still raises the question of bias: which sources should be selected for inclusion in the context? And how should their importance be weighted? In this paper, we study the challenge of cross-lingual RAG and present a dataset to investigate the robustness of existing systems at answering queries about geopolitical disputes, which exist at the intersection of linguistic, cultural, and political boundaries. Our dataset is sourced from Wikipedia pages containing information relevant to the given queries and we investigate the impact of including additional context, as well as the composition of this context in terms of language and source, on an LLM's response. Our results show that existing RAG systems continue to be challenged by cross-lingual use cases and suffer from a lack of consistency when they are provided with competing information in multiple languages. We present case studies to illustrate these issues and outline steps for future research to address these challenges. We make our dataset and code publicly available at https://github.com/manestay/bordIRlines.

BordIRlines : un ensemble de données pour évaluer la génération améliorée par la recherche interlingue

BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation

papers.abstract

Support