Rivalutazione del Ranking Testuale nella Ricerca Approfondita

Abstract

La ricerca approfondita è emersa come un compito importante che mira a risolvere query complesse attraverso un'estesa esplorazione del web aperto. Per affrontarla, la maggior parte del lavoro precedente equipaggia agenti basati su grandi modelli linguistici (LLM) con API opache di ricerca web, consentendo agli agenti di emettere iterativamente query di ricerca, recuperare evidenze esterne e ragionare su di esse. Nonostante il ruolo essenziale della ricerca nella ricerca approfondita, le API di ricerca web in scatola nera ostacolano un'analisi sistematica dei componenti di ricerca, lasciando in gran parte poco chiaro il comportamento dei metodi consolidati di ranking del testo in questo contesto. Per colmare questa lacuna, riproduciamo una selezione di risultati chiave e best practice per i metodi di ranking del testo IR nell'ambito della ricerca approfondita. In particolare, ne esaminiamo l'efficacia da tre prospettive: (i) unità di recupero (documenti vs. passaggi), (ii) configurazioni della pipeline (diversi retriever, re-ranker e profondità di riordinamento), e (iii) caratteristiche delle query (la discrepanza tra le query emesse dagli agenti e le query di addestramento dei sistemi di ranking del testo). Eseguiamo esperimenti su BrowseComp-Plus, un dataset per la ricerca approfondita con un corpus fisso, valutando 2 agenti open-source, 5 retriever e 3 re-ranker in diverse configurazioni. Scopriamo che le query emesse dagli agenti seguono tipicamente una sintassi simile alla ricerca web (ad esempio, corrispondenze esatte tra virgolette), favorendo retriever lessicali, basati su sparse learning e multi-vettore; le unità a livello di passaggio sono più efficienti con finestre di contesto limitate ed evitano le difficoltà di normalizzazione della lunghezza del documento nel recupero lessicale; il re-ranking è altamente efficace; tradurre le query degli agenti in domande in linguaggio naturale riduce significativamente la discrepanza delle query.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Rivalutazione del Ranking Testuale nella Ricerca Approfondita

Revisiting Text Ranking in Deep Research

Abstract

Support