Enmascarar observaciones obsoletas ayuda a los agentes de búsqueda — hasta que deja de hacerlo: un mapa de regímenes y su mecanismo.

Resumen

Los agentes de búsqueda de horizonte prolongado acumulan grandes cantidades de contenido recuperado a través de múltiples llamadas a herramientas, lo que hace que la eficiencia del presupuesto de contexto sea cada vez más importante. Una intervención mínima consiste en enmascarar las observaciones obsoletas del contexto a medida que avanza la trayectoria, pero aún no está claro cuándo esta forma de gestión del contexto resulta útil ni por qué. Estudiamos el enmascaramiento de observaciones mediante un barrido sistemático sobre diversos modelos base del agente (de 4 mil millones a 284 mil millones de parámetros) y tres recuperadores en benchmarks de búsqueda agente tanto fuera de línea como en la web en vivo. Encontramos que la ganancia en precisión derivada del enmascaramiento sigue una forma de U invertida asimétrica al representarla frente a la precisión del modelo sin gestión de contexto: una meseta con recuperadores débiles, un pico cuando un recuperador fuerte se combina con un modelo de capacidad media, y un colapso pronunciado cuando el modelo está saturado. Este patrón refleja la interacción entre la capacidad de recuperación del recuperador y la capacidad de filtrado implícito del modelo, más que cualquiera de los factores de forma aislada. Mecánicamente, el enmascaramiento implementa un intercambio entre tokens y turnos: elimina observaciones a las que el modelo ha dejado de prestar atención en gran medida y páginas que el agente rara vez vuelve a abrir. Los turnos añadidos ayudan cuando convierten fallos en éxitos, pero fracasan cuando el enmascaramiento elimina evidencia que el modelo habría utilizado en caso contrario. Por lo tanto, replanteamos la gestión del contexto como una intervención dependiente del régimen y proporcionamos una perspectiva holística para analizar el uso del contexto en la búsqueda profunda agente. Liberamos nuestro andamiaje y trayectorias aquí (https://github.com/i-DeepSearch/observation-masking) para apoyar futuras investigaciones.

English

Long-horizon search agents accumulate large amounts of retrieved content across many tool calls, making context-budget efficiency increasingly important. A minimal intervention is to mask stale observations from the context as the trajectory progresses, but it remains unclear when this form of context management helps and why. We study observation masking through a systematic sweep over various agent backbones (4B to 284B parameters) and three retrievers on offline and live-web agentic search benchmarks. We find that the accuracy gain from masking follows an asymmetric inverted-U shape when plotted against the model's accuracy without context management: a plateau under weak retrievers, a peak when a strong retriever meets a mid-capacity model, and a sharp collapse when the model is saturated. This pattern reflects the interaction between retriever recall and the model's implicit filtering capacity, rather than either factor in isolation. Mechanistically, masking implements a token-for-turn trade-off: it removes observations the model has largely stopped attending to and pages the agent rarely re-opens. The added turns help when they convert failures into successes, but they fail when masking removes evidence the model would otherwise have used. We therefore reframe context management as a regime-dependent intervention and provide a holistic perspective for analyzing context use in agentic deep search. We release our scaffold and trajectories here (https://github.com/i-DeepSearch/observation-masking) to support future research.