Harness-1: Aprendizagem por Reforço para Agentes de Busca com Arneses de Externalização de Estado

Resumo

Agentes de busca são frequentemente treinados como políticas sobre transcrições crescentes: o modelo deve decidir como buscar enquanto também se lembra do que viu, quais evidências são úteis, quais restrições permanecem em aberto e quais alegações foram efetivamente verificadas. Argumentamos que essa formulação coloca excesso de gerenciamento de estado rotineiro dentro da política: o aprendizado por reforço é forçado a otimizar tanto decisões semânticas de busca quanto a contabilidade recuperável que o ambiente pode manter de forma mais confiável. Apresentamos o Harness-1, um agente de busca (subagente de recuperação) de 20B treinado com aprendizado por reforço dentro de uma estrutura de busca com estado (harness). A estrutura mantém uma memória de trabalho no lado do ambiente, incluindo um conjunto de candidatos, um conjunto selecionado com marcação de importância, links de evidência compactos, registros de verificação, observações comprimidas e deduplicadas, e renderização de contexto consciente de orçamento. A política retém as decisões semânticas: o que buscar, quais documentos manter ou descartar, o que verificar e quando parar. Em oito benchmarks de recuperação abrangendo web, finanças, patentes e QA multi-salto, o Harness-1 alcança 0,730 de recall selecionado médio, superando o próximo subagente de busca aberta mais forte em +11,4 pontos e mantendo-se competitivo com agentes de busca de modelos de fronteira muito maiores. Seus ganhos são especialmente fortes em benchmarks de transferência não vistos, sugerindo que o aprendizado por reforço sobre estados de busca explícitos pode produzir comportamentos de recuperação que generalizam além dos domínios de treinamento. Nosso código está disponível em https://github.com/pat-jj/harness-1.

English

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.