Маскирование устаревших наблюдений помогает поисковым агентам — пока это не перестает помогать: карта режимов и ее механизм

Аннотация

Агенты долгосрочного поиска накапливают большие объёмы извлечённого контента в ходе многочисленных вызовов инструментов, что делает эффективность бюджета контекста всё более важной. Минимальным вмешательством является маскировка устаревших наблюдений из контекста по мере развития траектории, однако остаётся неясным, когда такая форма управления контекстом помогает и почему. Мы изучаем маскировку наблюдений путём систематического перебора различных базовых моделей агентов (от 4B до 284B параметров) и трёх ретриверов на офлайн- и живых веб-бенчмарках агентного поиска. Мы обнаружили, что прирост точности за счёт маскировки имеет асимметричную перевёрнутую U-образную форму при построении графика относительно точности модели без управления контекстом: плато в случае слабых ретриверов, пик при сочетании сильного ретривера с моделью средней ёмкости и резкое падение при насыщении модели. Эта закономерность отражает взаимодействие полноты поиска ретривера и имплицитной фильтрующей способности модели, а не влияние какого-либо из этих факторов по отдельности. Механистически маскировка реализует компромисс между токенами и шагами: она удаляет наблюдения, на которых модель в значительной степени перестала фокусироваться, и страницы, которые агент редко повторно открывает. Добавленные шаги помогают, когда они превращают неудачи в успехи, но не срабатывают, когда маскировка удаляет свидетельства, которые модель в противном случае использовала бы. Таким образом, мы переосмысливаем управление контекстом как интервенцию, зависящую от режима, и предлагаем целостную перспективу для анализа использования контекста в углублённом агентном поиске. Мы публикуем нашу архитектуру и траектории здесь (https://github.com/i-DeepSearch/observation-masking) для поддержки будущих исследований.

English

Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasingly important. A minimal intervention is to mask stale observations from the context as the trajectory progresses, but it remains unclear when this form of context management helps and why. We study observation masking through a systematic sweep over various agent backbones (4B to 284B parameters) and three retrievers on offline and live-web agentic search benchmarks. We find that the accuracy gain from masking follows an asymmetric inverted-U shape when plotted against the model's accuracy without context management: a plateau under weak retrievers, a peak when a strong retriever meets a mid-capacity model, and a sharp collapse when the model is saturated. This pattern reflects the interaction between retriever recall and the model's implicit filtering capacity, rather than either factor in isolation. Mechanistically, masking implements a token-for-turn trade-off: it removes observations the model has largely stopped attending to and pages the agent rarely re-opens. The added turns help when they convert failures into successes, but they fail when masking removes evidence the model would otherwise have used. We therefore reframe context management as a regime-dependent intervention and provide a holistic perspective for analyzing context use in agentic deep search. We release our scaffold and trajectories here (https://github.com/i-DeepSearch/observation-masking) to support future research.