Harness-1: Verstärkungslernen für Suchagenten mit zustandsexternalisierenden Kopplungen

Zusammenfassung

Suchagenten werden häufig als Strategien über wachsende Transkripte hinweg trainiert: Das Modell muss entscheiden, wie es suchen soll, während es sich gleichzeitig daran erinnert, was es gesehen hat, welche Beweise nützlich sind, welche Einschränkungen noch offen sind und welche Behauptungen tatsächlich überprüft wurden. Wir argumentieren, dass diese Formulierung zu viel routinemäßige Zustandsverwaltung in die Strategie legt: Das bestärkende Lernen wird gezwungen, sowohl semantische Suchentscheidungen als auch wiederherstellbare Buchführung zu optimieren, die die Umgebung zuverlässiger verwalten kann. Wir stellen Harness-1 vor, einen 20B großen Suchagenten (Retrieval-Unteragent), der mit bestärkendem Lernen in einem zustandsbehafteten Such-Harness trainiert wurde. Der Harness verwaltet ein umgebungsseitiges Arbeitsgedächtnis, das einen Kandidatenpool, eine mit Wichtigkeit markierte kuratierte Sammlung, kompakte Beweisverknüpfungen, Verifikationsaufzeichnungen, komprimierte und deduplizierte Beobachtungen sowie eine budgetbewusste Kontextdarstellung umfasst. Die Strategie behält die semantischen Entscheidungen: wonach gesucht werden soll, welche Dokumente behalten oder verworfen werden sollen, was überprüft werden soll und wann angehalten werden soll. Über acht Retrieval-Benchmarks aus den Bereichen Web, Finanzen, Patente und Multi-Hop-QA erreicht Harness-1 eine durchschnittliche kuratierte Trefferquote von 0,730, übertrifft den nächststärksten offenen Such-Unteragenten um +11,4 Punkte und bleibt wettbewerbsfähig mit deutlich größeren Frontier-Modell-Suchern. Seine Gewinne sind besonders stark bei zurückgehaltenen Transfer-Benchmarks, was darauf hindeutet, dass bestärkendes Lernen über explizite Suchzustände Retrieval-Verhalten hervorbringen kann, das über die Trainingsdomänen hinaus generalisiert. Unser Code ist verfügbar unter https://github.com/pat-jj/harness-1.

English

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.