Revisitando la Clasificación de Textos en la Investigación Profunda

Resumen

La investigación profunda ha surgido como una tarea importante que busca abordar consultas complejas mediante una exploración extensiva de la web abierta. Para abordarla, la mayoría de los trabajos previos equipan a agentes basados en modelos de lenguaje grande (LLM) con APIs opacas de búsqueda web, permitiendo a los agentes emitir consultas de búsqueda de forma iterativa, recuperar evidencia externa y razonar sobre ella. A pesar del papel esencial de la búsqueda en la investigación profunda, las APIs de búsqueda web de caja negra dificultan el análisis sistemático de los componentes de búsqueda, dejando en gran medida poco claro el comportamiento de los métodos establecidos de clasificación de texto en este contexto. Para llenar este vacío, reproducimos una selección de hallazgos clave y mejores prácticas para los métodos de clasificación de texto de RI en el entorno de investigación profunda. En particular, examinamos su efectividad desde tres perspectivas: (i) unidades de recuperación (documentos vs. pasajes), (ii) configuraciones de pipeline (diferentes recuperadores, re-clasificadores y profundidades de re-clasificación), y (iii) características de las consultas (el desajuste entre las consultas emitidas por el agente y las consultas de entrenamiento de los clasificadores de texto). Realizamos experimentos en BrowseComp-Plus, un conjunto de datos de investigación profunda con un corpus fijo, evaluando 2 agentes de código abierto, 5 recuperadores y 3 re-clasificadores en diversas configuraciones. Encontramos que las consultas emitidas por los agentes generalmente siguen una sintaxis de estilo búsqueda-web (por ejemplo, coincidencias exactas entre comillas), favoreciendo a los recuperadores léxicos, de dispersión aprendida y multivectoriales; las unidades a nivel de pasaje son más eficientes bajo ventanas de contexto limitadas y evitan las dificultades de normalización de longitud de documento en la recuperación léxica; la re-clasificación es altamente efectiva; traducir las consultas emitidas por los agentes a preguntas en lenguaje natural reduce significativamente el desajuste de consultas.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Revisitando la Clasificación de Textos en la Investigación Profunda

Revisiting Text Ranking in Deep Research

Resumen

Support