Harness-1: Aprendizaje por Refuerzo para Agentes de Búsqueda con Arneses Externalizadores de Estado

Resumen

Los agentes de búsqueda a menudo se entrenan como políticas sobre transcripciones en crecimiento: el modelo debe decidir cómo buscar mientras recuerda lo que ha visto, qué evidencia es útil, qué restricciones permanecen abiertas y qué afirmaciones se han verificado realmente. Sostenemos que esta formulación impone demasiada gestión rutinaria de estado dentro de la política: el aprendizaje por refuerzo se ve forzado a optimizar tanto las decisiones semánticas de búsqueda como el mantenimiento de registros recuperables que el entorno puede gestionar de manera más fiable. Presentamos Harness-1, un agente de búsqueda (subagente de recuperación) de 20B entrenado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado. El arnés mantiene una memoria de trabajo del lado del entorno, que incluye un grupo de candidatos, un conjunto seleccionado etiquetado por importancia, enlaces de evidencia compactos, registros de verificación, observaciones comprimidas y deduplicadas, y una representación de contexto consciente del presupuesto. La política conserva las decisiones semánticas: qué buscar, qué documentos conservar o descartar, qué verificar y cuándo detenerse. En ocho puntos de referencia de recuperación que abarcan web, finanzas, patentes y preguntas-respuestas de múltiples saltos, Harness-1 alcanza un recall curado promedio de 0.730, superando al siguiente subagente de búsqueda abierta más fuerte en +11.4 puntos y manteniéndose competitivo con buscadores de modelos frontera mucho más grandes. Sus mejoras son especialmente notables en puntos de referencia de transferencia no vistos, lo que sugiere que el aprendizaje por refuerzo sobre un estado de búsqueda explícito puede producir comportamientos de recuperación que se generalizan más allá de los dominios de entrenamiento. Nuestro código está disponible en https://github.com/pat-jj/harness-1.

English

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.