Neubewertung der Textreihung in der Tiefenforschung

Zusammenfassung

Tiefgehende Recherche hat sich als wichtige Aufgabe etabliert, die darauf abzielt, komplexe Anfragen durch umfangreiche Exploration des offenen Webs zu beantworten. Um dies zu bewältigen, stattet der Großteil der bisherigen Forschung agentenbasierte große Sprachmodelle (LLMs) mit undurchsichtigen Websuch-APIs aus, die es den Agenten ermöglichen, iterativ Suchanfragen zu stellen, externe Evidenz abzurufen und darüber zu schlussfolgern. Trotz der essenziellen Rolle der Suche bei der tiefgehenden Recherche behindern Blackbox-Websuch-APIs die systematische Analyse der Suchkomponenten, sodass das Verhalten etablierter Text-Ranking-Methoden in diesem Kontext weitgehend unklar bleibt. Um diese Lücke zu schließen, reproduzieren wir eine Auswahl wichtiger Erkenntnisse und Best Practices für IR-Text-Ranking-Methoden im Setting der tiefgehenden Recherche. Insbesondere untersuchen wir ihre Wirksamkeit aus drei Perspektiven: (i) Retrieval-Einheiten (Dokumente vs. Passagen), (ii) Pipeline-Konfigurationen (verschiedene Retriever, Re-Ranker und Re-Ranking-Tiefen) und (iii) Abfragemerkmale (die Diskrepanz zwischen von Agenten generierten Abfragen und den Trainingsabfragen der Text-Ranker). Wir führen Experimente auf BrowseComp-Plus durch, einem Datensatz für tiefgehende Recherche mit einem festen Korpus, und evaluieren dabei 2 Open-Source-Agenten, 5 Retriever und 3 Re-Ranker in verschiedenen Setups. Unsere Ergebnisse zeigen, dass von Agenten generierte Abfragen typischerweise eine websearch-ähnliche Syntax aufweisen (z.B. Anführungszeichen für exakte Treffer), was lexikalische, gelernte sparse und Multi-Vector-Retriever begünstigt; Passagen-Einheiten sind unter begrenzten Kontextfenstern effizienter und umgehen die Schwierigkeiten der Dokumentlängennormierung beim lexikalischen Retrieval; Re-Ranking ist hochwirksam; die Übersetzung von Agenten-abfragen in natürliche Sprachfragen überbrückt die Abfragediskrepanz signifikant.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Neubewertung der Textreihung in der Tiefenforschung

Revisiting Text Ranking in Deep Research

Zusammenfassung

Support