Masquer les observations obsolètes aide les agents de recherche — jusqu’à ce que ce ne soit plus le cas : une carte de régimes et son mécanisme

Résumé

Les agents de recherche à long horizon accumulent de grandes quantités de contenu récupéré au cours de nombreux appels d'outils, ce qui rend l'efficacité du budget de contexte de plus en plus importante. Une intervention minimale consiste à masquer les observations obsolètes du contexte au fur et à mesure que la trajectoire progresse, mais il n'est pas clair quand cette forme de gestion de contexte est bénéfique ni pourquoi. Nous étudions le masquage des observations via un balayage systématique sur diverses architectures d'agents (de 4 à 284 milliards de paramètres) et trois récupérateurs, sur des benchmarks de recherche agentique hors ligne et sur le web en direct. Nous constatons que le gain de précision dû au masquage suit une forme de U inversé asymétrique lorsqu'il est tracé en fonction de la précision du modèle sans gestion de contexte : un plateau sous des récupérateurs faibles, un pic lorsqu'un récupérateur puissant rencontre un modèle de capacité moyenne, et un effondrement brutal lorsque le modèle est saturé. Cette tendance reflète l'interaction entre le rappel du récupérateur et la capacité de filtrage implicite du modèle, plutôt qu'un seul de ces facteurs. Mécaniquement, le masquage met en œuvre un compromis token-par-tour : il supprime les observations auxquelles le modèle a largement cessé de prêter attention et les pages que l'agent rouvre rarement. Les tours ajoutés sont bénéfiques lorsqu'ils transforment des échecs en succès, mais ils échouent lorsque le masquage supprime des preuves que le modèle aurait autrement utilisées. Nous reformulons donc la gestion de contexte comme une intervention dépendante du régime et offrons une perspective holistique pour analyser l'utilisation du contexte dans la recherche agentique profonde. Nous publions notre infrastructure et nos trajectoires ici (https://github.com/i-DeepSearch/observation-masking) pour soutenir les recherches futures.

English

Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasingly important. A minimal intervention is to mask stale observations from the context as the trajectory progresses, but it remains unclear when this form of context management helps and why. We study observation masking through a systematic sweep over various agent backbones (4B to 284B parameters) and three retrievers on offline and live-web agentic search benchmarks. We find that the accuracy gain from masking follows an asymmetric inverted-U shape when plotted against the model's accuracy without context management: a plateau under weak retrievers, a peak when a strong retriever meets a mid-capacity model, and a sharp collapse when the model is saturated. This pattern reflects the interaction between retriever recall and the model's implicit filtering capacity, rather than either factor in isolation. Mechanistically, masking implements a token-for-turn trade-off: it removes observations the model has largely stopped attending to and pages the agent rarely re-opens. The added turns help when they convert failures into successes, but they fail when masking removes evidence the model would otherwise have used. We therefore reframe context management as a regime-dependent intervention and provide a holistic perspective for analyzing context use in agentic deep search. We release our scaffold and trajectories here (https://github.com/i-DeepSearch/observation-masking) to support future research.