Opnieuw bekijken van tekstrangschikking in diepgaand onderzoek

Samenvatting

Diepgaand onderzoek is naar voren gekomen als een belangrijke taak die beoogt complexe vragen te beantwoorden via uitgebreide verkenning van het open web. Om dit aan te pakken, rust het merendeel van eerder werk agents gebaseerd op grote taalmodellen (LLM's) uit met ondoorzichtige webzoek-API's, waardoor agents iteratief zoekopdrachten kunnen uitvoeren, externe informatie kunnen ophalen en hierover kunnen redeneren. Ondanks de essentiële rol van zoeken in diepgaand onderzoek, belemmeren black-box webzoek-API's een systematische analyse van zoekcomponenten, waardoor het gedrag van gevestigde tekstrangschikkingsmethoden in diepgaand onderzoek grotendeels onduidelijk blijft. Om deze leemte op te vullen, reproduceren we een selectie van belangrijke bevindingen en best practices voor IR-tekstrangschikkingsmethoden in de context van diepgaand onderzoek. In het bijzonder onderzoeken we hun effectiviteit vanuit drie perspectieven: (i) retrieval-eenheden (documenten versus passages), (ii) pijplijnconfiguraties (verschillende retrievers, her-rangschikkers en her-rangschikkingsdieptes), en (iii) querykarakteristieken (de mismatch tussen door agents gegenereerde queries en de trainingsqueries van tekstrangschikkers). We voeren experimenten uit op BrowseComp-Plus, een dataset voor diepgaand onderzoek met een vaste corpus, waarbij we 2 open-source agents, 5 retrievers en 3 her-rangschikkers evalueren in diverse opstellingen. We constateren dat queries van agents doorgaans een webzoekstijl-syntax volgen (bijvoorbeeld aanhalingstekens voor exacte matches), wat lexicale, geleerde sparse en multi-vector retrievers bevoordeelt; passage-niveau eenheden zijn efficiënter onder beperkte contextvensters en vermijden de moeilijkheden van documentlengtenormalisatie in lexicale retrieval; her-rangschikking is zeer effectief; het vertalen van door agents gegenereerde queries naar natuurlijke-taalvragen overbrugt de query-mismatch aanzienlijk.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Opnieuw bekijken van tekstrangschikking in diepgaand onderzoek

Revisiting Text Ranking in Deep Research

Samenvatting

Support