Revisitando a Classificação de Texto na Pesquisa Aprofundada

Resumo

A pesquisa aprofunda emergiu como uma tarefa importante que visa abordar consultas complexas por meio de exploração extensiva na web aberta. Para lidar com isso, a maioria dos trabalhos anteriores equipa agentes baseados em grandes modelos de linguagem (LLMs) com APIs opacas de busca na web, permitindo que os agentes emitam iterativamente consultas de pesquisa, recuperem evidências externas e raciocinem sobre elas. Apesar do papel essencial da busca na pesquisa aprofunda, as APIs de busca na web em formato de caixa preta impedem uma análise sistemática dos componentes de pesquisa, deixando amplamente obscuro o comportamento dos métodos estabelecidos de classificação de texto na pesquisa aprofunda. Para preencher esta lacuna, reproduzimos uma seleção de descobertas-chave e melhores práticas para métodos de classificação de texto de RI no contexto da pesquisa aprofunda. Em particular, examinamos a sua eficácia a partir de três perspetivas: (i) unidades de recuperação (documentos vs. passagens), (ii) configurações de pipeline (diferentes recuperadores, reclassificadores e profundidades de reclassificação), e (iii) características da consulta (o desajuste entre as consultas emitidas pelo agente e as consultas de treino dos classificadores de texto). Realizamos experiências no BrowseComp-Plus, um conjunto de dados de pesquisa aprofunda com um corpus fixo, avaliando 2 agentes de código aberto, 5 recuperadores e 3 reclassificadores em diversas configurações. Descobrimos que as consultas emitidas pelo agente seguem tipicamente uma sintaxe de estilo de busca na web (por exemplo, correspondências exatas entre aspas), favorecendo recuperadores léxicos, esparsos aprendidos e de vetores múltiplos; as unidades a nível de passagem são mais eficientes sob janelas de contexto limitadas e evitam as dificuldades da normalização do comprimento do documento na recuperação léxica; a reclassificação é altamente eficaz; traduzir as consultas emitidas pelo agente para perguntas em linguagem natural reduz significativamente o desajuste de consultas.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Revisitando a Classificação de Texto na Pesquisa Aprofundada

Revisiting Text Ranking in Deep Research

Resumo

Support