ChatPaper.aiChatPaper

Harness-1: 상태 외부화 하네스를 갖춘 검색 에이전트를 위한 강화 학습

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

June 1, 2026
저자: Pengcheng Jiang, Zhiyi Shi, Kelly Hong, Xueqiang Xu, Jiashuo Sun, Jimeng Sun, Hammad Bashir, Jiawei Han
cs.AI

초록

검색 에이전트는 종종 증가하는 대화 기록에 대한 정책으로 훈련됩니다. 즉, 모델은 검색 방법을 결정하는 동시에 지금까지 본 내용, 어떤 증거가 유용한지, 어떤 제약 조건이 여전히 열려 있는지, 어떤 주장이 실제로 확인되었는지를 기억해야 합니다. 우리는 이러한 공식이 정책 내에 너무 많은 일상적인 상태 관리를 부과한다고 주장합니다. 강화 학습은 의미적 검색 결정과 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리(bookkeeping)를 모두 최적화하도록 강제됩니다. 우리는 상태 기반 검색 도구(stateful search harness) 내에서 강화 학습으로 훈련된 200억 파라미터 규모의 검색 에이전트(검색 하위 에이전트)인 Harness-1을 소개합니다. 이 도구는 후보 풀, 중요도 태그가 붙은 선별 세트, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 예산 인식 컨텍스트 렌더링을 포함한 환경 측 작업 기억을 유지합니다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미적 결정을 유지합니다. 웹, 금융, 특허, 다중 홉 QA를 포괄하는 8개의 검색 벤치마크에서 Harness-1은 평균 0.730의 선별 재현율을 달성하여, 다음으로 강력한 오픈 검색 하위 에이전트보다 +11.4포인트 높은 성능을 보였으며, 훨씬 더 큰 최첨단 모델 검색기와도 경쟁력을 유지했습니다. 특히 보류된 전이 벤치마크에서 성능 향상이 두드러졌는데, 이는 명시적 검색 상태에 대한 강화 학습이 훈련 도메인을 넘어 일반화되는 검색 행동을 생성할 수 있음을 시사합니다. 코드는 https://github.com/pat-jj/harness-1에서 확인할 수 있습니다.
English
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.