Переосмысление ранжирования текстов в условиях глубокого исследования

Аннотация

Глубокое исследование стало важной задачей, направленной на решение сложных запросов путём масштабного изучения открытых веб-ресурсов. Для её решения большинство существующих подходов оснащают агентов на основе больших языковых моделей (LLM) непрозрачными API веб-поиска, что позволяет агентам итеративно формировать поисковые запросы, извлекать внешние свидетельства и проводить над ними рассуждения. Несмотря на ключевую роль поиска в глубоком исследовании, использование «чёрного ящика» API веб-поиска затрудняет систематический анализ поисковых компонентов, оставляя поведение устоявшихся методов ранжирования текста в данном контексте в значительной степени неясным. Чтобы заполнить этот пробел, мы воспроизводим ряд ключевых выводов и лучших практик для методов ранжирования текста в информационном поиске в условиях глубокого исследования. В частности, мы исследуем их эффективность с трёх точек зрения: (i) единицы извлечения (документы против пассажей), (ii) конфигурации конвейера (разные ритриверы, реранкеры и глубина реранкинга) и (iii) характеристики запросов (расхождение между запросами, генерируемыми агентом, и обучающими запросами текстовых ранкеров). Мы проводим эксперименты на наборе данных BrowseComp-Plus для глубокого исследования с фиксированным корпусом, оценивая 2 агента с открытым исходным кодом, 5 ритриверов и 3 реранкера в различных конфигурациях. Мы обнаруживаем, что запросы, формируемые агентом, обычно следуют синтаксису веб-поиска (например, точные совпадения в кавычках), благоприятствуя лексическим, разреженным с обучением и мультивекторным ритриверам; пассажи как единицы извлечения более эффективны при ограниченных контекстных окнах и позволяют избежать трудностей нормализации длины документа в лексическом поиске; реранкинг высокоэффективен; перевод запросов агента в естественно-языковые вопросы существенно сокращает расхождение между запросами.

English

Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.

Переосмысление ранжирования текстов в условиях глубокого исследования

Revisiting Text Ranking in Deep Research

Аннотация

Support