Mascarar Observações Obsoletas Ajuda Agentes de Busca – Até Que Não Ajuda: Um Mapa de Regime e Seu Mecanismo

Resumo

Agentes de busca de longo horizonte acumulam grandes quantidades de conteúdo recuperado ao longo de muitas chamadas de ferramentas, tornando a eficiência do orçamento de contexto cada vez mais importante. Uma intervenção mínima é mascarar observações obsoletas do contexto à medida que a trajetória progride, mas ainda não está claro quando essa forma de gerenciamento de contexto ajuda e por quê. Estudamos o mascaramento de observações por meio de uma varredura sistemática sobre vários backbones de agentes (de 4B a 284B parâmetros) e três recuperadores em benchmarks de busca agentiva offline e na web ao vivo. Descobrimos que o ganho de precisão do mascaramento segue uma forma de U invertido assimétrica quando plotado contra a precisão do modelo sem gerenciamento de contexto: um platô sob recuperadores fracos, um pico quando um recuperador forte encontra um modelo de capacidade média e um colapso abrupto quando o modelo está saturado. Esse padrão reflete a interação entre a revocação do recuperador e a capacidade de filtragem implícita do modelo, em vez de qualquer fator isoladamente. Mecanicamente, o mascaramento implementa uma troca de tokens por turnos: ele remove observações nas quais o modelo deixou amplamente de prestar atenção e páginas que o agente raramente reabre. Os turnos adicionados ajudam quando convertem falhas em sucessos, mas falham quando o mascaramento remove evidências que o modelo teria usado de outra forma. Portanto, reformulamos o gerenciamento de contexto como uma intervenção dependente de regime e fornecemos uma perspectiva holística para analisar o uso de contexto em busca agentiva profunda. Disponibilizamos nosso arcabouço e trajetórias aqui (https://github.com/i-DeepSearch/observation-masking) para apoiar pesquisas futuras.

English

Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasingly important. A minimal intervention is to mask stale observations from the context as the trajectory progresses, but it remains unclear when this form of context management helps and why. We study observation masking through a systematic sweep over various agent backbones (4B to 284B parameters) and three retrievers on offline and live-web agentic search benchmarks. We find that the accuracy gain from masking follows an asymmetric inverted-U shape when plotted against the model's accuracy without context management: a plateau under weak retrievers, a peak when a strong retriever meets a mid-capacity model, and a sharp collapse when the model is saturated. This pattern reflects the interaction between retriever recall and the model's implicit filtering capacity, rather than either factor in isolation. Mechanistically, masking implements a token-for-turn trade-off: it removes observations the model has largely stopped attending to and pages the agent rarely re-opens. The added turns help when they convert failures into successes, but they fail when masking removes evidence the model would otherwise have used. We therefore reframe context management as a regime-dependent intervention and provide a holistic perspective for analyzing context use in agentic deep search. We release our scaffold and trajectories here (https://github.com/i-DeepSearch/observation-masking) to support future research.