Het maskeren van verouderde observaties helpt zoekagenten – totdat het dat niet meer doet: een regimekaart en het mechanisme ervan

Samenvatting

Langetermijnzoekagenten verzamelen grote hoeveelheden opgehaalde inhoud tijdens vele tool-aanroepen, waardoor de efficiëntie van het contextbudget steeds belangrijker wordt. Een minimale interventie is het maskeren van verouderde observaties uit de context naarmate het traject vordert, maar het blijft onduidelijk wanneer deze vorm van contextbeheer helpt en waarom. We bestuderen observatiemaskeren door middel van een systematische sweep over verschillende agent-basismodellen (4B tot 284B parameters) en drie retrievers op offline en live-web agentische zoekbenchmarks. We vinden dat de nauwkeurigheidswinst van maskeren een asymmetrische omgekeerde U-vorm volgt wanneer uitgezet tegen de nauwkeurigheid van het model zonder contextbeheer: een plateau bij zwakke retrievers, een piek wanneer een sterke retriever wordt gecombineerd met een model met gemiddelde capaciteit, en een scherpe ineenstorting wanneer het model verzadigd is. Dit patroon weerspiegelt de interactie tussen de terugroep van de retriever en de impliciete filtercapaciteit van het model, niet een van beide factoren afzonderlijk. Mechanistisch gezien implementeert maskeren een token-voor-beurt afweging: het verwijdert observaties waar het model grotendeels is gestopt met opletten en pagina's die de agent zelden heropent. De toegevoegde beurten helpen wanneer ze mislukkingen in successen omzetten, maar falen wanneer maskeren bewijs verwijdert dat het model anders zou hebben gebruikt. Daarom herformuleren we contextbeheer als een regimeafhankelijke interventie en bieden we een holistisch perspectief voor het analyseren van contextgebruik in agentisch diep zoeken. We stellen ons scaffold en trajecten beschikbaar op https://github.com/i-DeepSearch/observation-masking om toekomstig onderzoek te ondersteunen.

English

Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasingly important. A minimal intervention is to mask stale observations from the context as the trajectory progresses, but it remains unclear when this form of context management helps and why. We study observation masking through a systematic sweep over various agent backbones (4B to 284B parameters) and three retrievers on offline and live-web agentic search benchmarks. We find that the accuracy gain from masking follows an asymmetric inverted-U shape when plotted against the model's accuracy without context management: a plateau under weak retrievers, a peak when a strong retriever meets a mid-capacity model, and a sharp collapse when the model is saturated. This pattern reflects the interaction between retriever recall and the model's implicit filtering capacity, rather than either factor in isolation. Mechanistically, masking implements a token-for-turn trade-off: it removes observations the model has largely stopped attending to and pages the agent rarely re-opens. The added turns help when they convert failures into successes, but they fail when masking removes evidence the model would otherwise have used. We therefore reframe context management as a regime-dependent intervention and provide a holistic perspective for analyzing context use in agentic deep search. We release our scaffold and trajectories here (https://github.com/i-DeepSearch/observation-masking) to support future research.