Harness-1 : Apprentissage par renforcement pour agents de recherche avec harnais externalisant l'état

Résumé

Les agents de recherche sont souvent entraînés en tant que politiques sur des transcriptions croissantes : le modèle doit décider comment chercher tout en se rappelant ce qu'il a vu, quels indices sont utiles, quelles contraintes restent ouvertes et quelles affirmations ont effectivement été vérifiées. Nous soutenons que cette formulation impose une gestion d'état de routine excessive à la politique : l'apprentissage par renforcement est contraint d'optimiser à la fois les décisions sémantiques de recherche et une comptabilité récupérable que l'environnement peut maintenir de manière plus fiable. Nous présentons Harness-1, un agent de recherche (sous-agent de récupération) de 20 milliards de paramètres entraîné par apprentissage par renforcement au sein d'un harnais de recherche à état. Le harnais maintient une mémoire de travail du côté de l'environnement, incluant un réservoir de candidats, un ensemble curé avec étiquettes d'importance, des liens de preuves compacts, des enregistrements de vérification, des observations compressées et dédupliquées, ainsi qu'un rendu contextuel sensible au budget. La politique conserve les décisions sémantiques : quoi chercher, quels documents garder ou rejeter, quoi vérifier et quand s'arrêter. Sur huit benchmarks de recherche couvrant le web, la finance, les brevets et les questions-réponses multi-sauts, Harness-1 atteint un rappel curé moyen de 0,730, surpassant le meilleur sous-agent de recherche open source suivant de +11,4 points et restant compétitif avec des agents de recherche utilisant des modèles frontières bien plus grands. Ses gains sont particulièrement marqués sur les benchmarks de transfert tenus à l'écart, ce qui suggère que l'apprentissage par renforcement sur un état de recherche explicite peut produire des comportements de récupération qui généralisent au-delà des domaines d'entraînement. Notre code est disponible à l'adresse https://github.com/pat-jj/harness-1.

English

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.