Reconsidérer le classement de texte dans la recherche approfondie

Résumé

La recherche approfondie est devenue une tâche importante visant à traiter des requêtes complexes par une exploration extensive du web ouvert. Pour y parvenir, la plupart des travaux antérieurs équipent des agents basés sur des grands modèles de langage (LLM) avec des API opaques de recherche web, permettant aux agents d'émettre itérativement des requêtes de recherche, de récupérer des preuves externes et de raisonner sur celles-ci. Bien que la recherche soit essentielle dans ce cadre, les API de recherche web en boîte noire entravent l'analyse systématique des composants de recherche, laissant le comportement des méthodes établies de classement de texte largement obscur. Pour combler cette lacune, nous reproduisons une sélection de résultats clés et de bonnes pratiques pour les méthodes de classement de texte en RI dans le contexte de la recherche approfondie. Nous examinons particulièrement leur efficacité sous trois angles : (i) les unités de récupération (documents vs passages), (ii) les configurations de pipeline (différents récupérateurs, re-classeurs et profondeurs de re-classement), et (iii) les caractéristiques des requêtes (l'écart entre les requêtes émises par les agents et les requêtes d'entraînement des classeurs de texte). Nous menons des expériences sur BrowseComp-Plus, un jeu de données de recherche approfondie avec un corpus fixe, en évaluant 2 agents open-source, 5 récupérateurs et 3 re-classeurs dans diverses configurations. Nous constatons que les requêtes émises par les agents suivent généralement une syntaxe de type recherche web (p. ex., correspondances exactes entre guillemets), favorisant les récupérateurs lexicaux, à apprentissage sparse et multi-vecteurs ; les unités au niveau des passages sont plus efficaces sous des fenêtres de contexte limitées et évitent les difficultés de normalisation de la longueur des documents dans la récupération lexicale ; le re-classement est très efficace ; la traduction des requêtes des agents en questions en langage naturel réduit significativement l'écart entre les requêtes.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Reconsidérer le classement de texte dans la recherche approfondie

Revisiting Text Ranking in Deep Research

Résumé

Support