ChatPaper.aiChatPaper

DR Tulu: 심층 연구를 위한 진화하는 루브릭을 활용한 강화 학습

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

November 24, 2025
저자: Rulin Shao, Akari Asai, Shannon Zejiang Shen, Hamish Ivison, Varsha Kishore, Jingming Zhuo, Xinran Zhao, Molly Park, Samuel G. Finlayson, David Sontag, Tyler Murray, Sewon Min, Pradeep Dasigi, Luca Soldaini, Faeze Brahman, Wen-tau Yih, Tongshuang Wu, Luke Zettlemoyer, Yoon Kim, Hannaneh Hajishirzi, Pang Wei Koh
cs.AI

초록

깊은 연구 모델은 장문의 출처가 명확한 답변을 생성하기 위해 다단계 연구를 수행합니다. 그러나 대부분의 오픈 소스 깊은 연구 모델은 검증 가능한 보상을 통한 강화 학습(RLVR)을 통해 검증이 쉬운 단문 질의응답 작업에 대해 훈련되어, 현실적인 장문 작업으로 확장되지 못하는 한계가 있습니다. 우리는 이를 진화하는 채점 기준을 통한 강화 학습(RLER)으로 해결합니다. RLER에서는 훈련 과정에서 정책 모델과 함께 공동 진화하는 채점 기준을 구성 및 유지하며, 이를 통해 기준이 모델이 새롭게 탐색한 정보를 통합하고 차별화된 온-정책 피드백을 제공할 수 있도록 합니다. RLER를 사용하여 우리는 개방형 장문 깊은 연구를 위해 직접 훈련된 최초의 오픈 모델인 Deep Research Tulu(DR Tulu-8B)를 개발했습니다. 과학, 헬스케어 및 일반 영역의 4가지 장문 깊은 연구 벤치마크에서 DR Tulu는 기존 오픈 소스 깊은 연구 모델을 크게 능가하고, 상용 깊은 연구 시스템과 동등하거나 그 이상의 성능을 보이면서도 크기와 쿼리당 비용이 훨씬 작습니다. 향후 연구를 촉진하기 위해 새로운 MCP 기반 에이전트 인프라를 포함한 모든 데이터, 모델 및 코드를 공개합니다.
English
Deep research models perform multi-step research to produce long-form, well-attributed answers. However, most open deep research models are trained on easily verifiable short-form QA tasks via reinforcement learning with verifiable rewards (RLVR), which does not extend to realistic long-form tasks. We address this with Reinforcement Learning with Evolving Rubrics (RLER), in which we construct and maintain rubrics that co-evolve with the policy model during training; this allows the rubrics to incorporate information that the model has newly explored and to provide discriminative, on-policy feedback. Using RLER, we develop Deep Research Tulu (DR Tulu-8B), the first open model that is directly trained for open-ended, long-form deep research. Across four long-form deep research benchmarks in science, healthcare and general domains, DR Tulu substantially outperforms existing open deep research models, and matches or exceeds proprietary deep research systems, while being significantly smaller and cheaper per query. To facilitate future research, we release all data, models, and code, including our new MCP-based agent infrastructure for deep research systems.
PDF613February 7, 2026