Au-delà de la recherche approfondie monolingue : évaluation des agents et des modules de récupération avec le BrowseComp-Plus cross-lingue

Résumé

Les agents de recherche approfondie sont de plus en plus évalués sur leur capacité à rechercher des preuves, à raisonner sur les sources récupérées et à produire des réponses fondées. Cependant, les benchmarks de navigation existants supposent en grande partie que la requête de l'utilisateur et les preuves à l'appui sont rédigées dans la même langue, laissant ouverte la question de savoir si les systèmes de recherche agentive peuvent fonctionner lorsque des preuves pertinentes apparaissent dans une autre langue. Nous présentons XBCP (Cross-lingual BrowseComp-Plus), un benchmark contrôlé qui préserve l'espace de questions-réponses en anglais de BrowseComp-Plus mais fait varier les langues des documents justificatifs. XBCP instancie deux cadres complémentaires : dans le cadre cross-lingue, chaque requête est associée à des preuves dans une seule langue assignée. Dans le cadre multilingue, l'ensemble du corpus de preuves est réparti de manière égale et aléatoire sur 12 langues couvrant des régimes à hautes et faibles ressources. Nous évaluons quatre agents de recherche approfondie utilisant des récupérateurs multilingues creux et denses, en mesurant la précision des réponses, le rappel des preuves, le comportement de recherche, la calibration, la fidélité des citations et la récupération oracle. Les résultats révèlent une dégradation substantielle lorsque les preuves sont traduites. Même les récupérateurs denses et performants perdent en rappel de preuves, et les agents deviennent moins calibrés et citent les preuves de manière moins fiable. Notamment, la précision reste inférieure même lorsque toutes les preuves de référence sont fournies directement. Ces résultats suggèrent que la recherche approfondie cross-lingue expose à la fois des échecs de récupération et une difficulté indépendante du côté de l'agent à intégrer des preuves en décalage linguistique.

English

Deep research agents are increasingly evaluated on their ability to search for evidence, reason over retrieved sources, and produce grounded answers. Existing browsing benchmarks, however, largely assume that the user's query and the supporting evidence are written in the same language, leaving open whether agentic search systems can operate when relevant evidence appears in another language. We introduce XBCP (Cross-lingual BrowseComp-Plus), a controlled benchmark that preserves the English question-and-answer space of BrowseComp-Plus but varies the languages of the supporting documents. XBCP instantiates two complementary settings: in the cross-lingual setting, each query is paired with evidence in a single assigned language. In the multilingual setting, the full evidence corpus is distributed equally and randomly across 12 languages spanning high-resource and low-resource regimes. We evaluate four deep research agents using sparse and dense multilingual retrievers, measuring answer accuracy, evidence recall, search behavior, calibration, citation fidelity, and oracle retrieval. Results reveal substantial degradation when evidence is translated. Even strong, dense retrievers lose evidence recall, and agents become less calibrated and cite evidence less reliably. Notably, accuracy remains lower even when all gold evidence is supplied directly. These findings suggest that cross-lingual deep research exposes both retrieval failures and an independent, agent-side difficulty in integrating language-mismatched evidence.