Das Maskieren veralteter Beobachtungen hilft Suchagenten – bis es nicht mehr hilft: Eine Regimekarte und ihr Mechanismus

Zusammenfassung

Langzeit-Suchagenten sammeln über viele Tool-Aufrufe hinweg große Mengen abgerufener Inhalte an, wodurch die Effizienz des Kontextbudgets zunehmend an Bedeutung gewinnt. Ein minimaler Eingriff besteht darin, veraltete Beobachtungen aus dem Kontext zu maskieren, während sich die Trajektorie entwickelt. Es bleibt jedoch unklar, wann diese Form der Kontextverwaltung hilft und warum. Wir untersuchen die Beobachtungsmaskierung mittels einer systematischen Analyse über verschiedene Agenten-Backbones (4B bis 284B Parameter) und drei Retriever hinweg anhand von Offline- und Live-Web-Agentic-Search-Benchmarks. Wir stellen fest, dass der Genauigkeitsgewinn durch Maskierung einer asymmetrischen, umgekehrten U-Form folgt, wenn man ihn gegen die Genauigkeit des Modells ohne Kontextverwaltung aufträgt: ein Plateau bei schwachen Retrivern, ein Höhepunkt, wenn ein starker Retriever auf ein Modell mittlerer Kapazität trifft, und ein scharfer Einbruch, wenn das Modell gesättigt ist. Dieses Muster spiegelt das Zusammenspiel von Retriever-Recall und der impliziten Filterkapazität des Modells wider und nicht einen der beiden Faktoren isoliert. Mechanistisch betrachtet setzt die Maskierung einen Token-gegen-Zug-Kompromiss um: Sie entfernt Beobachtungen, auf die das Modell größtenteils aufgehört hat zu achten, sowie Seiten, die der Agent selten wieder öffnet. Die hinzugefügten Züge helfen, wenn sie Fehlschläge in Erfolge verwandeln, schlagen jedoch fehl, wenn die Maskierung Beweise entfernt, die das Modell ansonsten genutzt hätte. Daher betrachten wir die Kontextverwaltung als eine regimesabhängige Intervention und bieten eine ganzheitliche Perspektive zur Analyse der Kontextnutzung bei agentischem Deep Search. Wir veröffentlichen unser Scaffold und die Trajektorien hier (https://github.com/i-DeepSearch/observation-masking), um zukünftige Forschung zu unterstützen.

English

Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasingly important. A minimal intervention is to mask stale observations from the context as the trajectory progresses, but it remains unclear when this form of context management helps and why. We study observation masking through a systematic sweep over various agent backbones (4B to 284B parameters) and three retrievers on offline and live-web agentic search benchmarks. We find that the accuracy gain from masking follows an asymmetric inverted-U shape when plotted against the model's accuracy without context management: a plateau under weak retrievers, a peak when a strong retriever meets a mid-capacity model, and a sharp collapse when the model is saturated. This pattern reflects the interaction between retriever recall and the model's implicit filtering capacity, rather than either factor in isolation. Mechanistically, masking implements a token-for-turn trade-off: it removes observations the model has largely stopped attending to and pages the agent rarely re-opens. The added turns help when they convert failures into successes, but they fail when masking removes evidence the model would otherwise have used. We therefore reframe context management as a regime-dependent intervention and provide a holistic perspective for analyzing context use in agentic deep search. We release our scaffold and trajectories here (https://github.com/i-DeepSearch/observation-masking) to support future research.