딥 리서치 보고서 생성을 위한 인간 선호도 기반 질의 특화 평가 기준 학습
Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation
February 3, 2026
저자: Changze Lv, Jie Zhou, Wentao Zhao, Jingwen Xu, Zisu Huang, Muzhao Tian, Shihan Dou, Tao Gui, Le Tian, Xiao Zhou, Xiaoqing Zheng, Xuanjing Huang, Jie Zhou
cs.AI
초록
현재 DeepResearch 생성 보고서의 훈련 및 평가는 검증 가능한 보상 신호의 부족으로 인해 여전히 어려움을 겪고 있습니다. 이에 따라 루브릭 기반 평가가 일반적인 관행으로 자리 잡았습니다. 그러나 기존 접근법들은 충분한 세분성을 갖추지 못한 거시적이고 사전 정의된 루브릭에 의존하거나, 비용이 많이 들고 확장이 어려운 수동으로 구축된 쿼리 특화 루브릭에 의존하는 한계가 있습니다. 본 논문에서는 DeepResearch 보고서 생성을 위해 특화된 인간 선호도에 정렬된 쿼리 특화 루브릭 생성기를 훈련시키는 파이프라인을 제안합니다. 먼저, 인간의 선호도가 주석으로 달린 DeepResearch 스타일 쿼리 데이터셋을 구축하고, 인간 선호도 지도와 LLM 기반 루브릭 평가를 결합한 하이브리드 보상을 활용한 강화 학습을 통해 루브릭 생성기를 훈련시킵니다. 또한 장기 추론을 더 효과적으로 처리하기 위해 보고서 생성을 위한 다중 에이전트 마르코프 상태(MaMs) 워크플로를 추가로 도입합니다. 실험 결과, 우리가 제안한 루브릭 생성기가 기존 루브릭 설계 전략보다 더 판별력 있고 인간 선호도에 더 잘 정렬된 지도를 제공함을 확인했습니다. 더 나아가, MaMs 훈련 프레임워크에 통합되었을 때, 우리의 루브릭 생성기를 탑재한 DeepResearch 시스템은 DeepResearch Bench에서 모든 오픈소스 기준 모델을 지속적으로 능가하며 주요 클로즈드소스 모델에 버금가는 성능을 달성했습니다.
English
Nowadays, training and evaluating DeepResearch-generated reports remain challenging due to the lack of verifiable reward signals. Accordingly, rubric-based evaluation has become a common practice. However, existing approaches either rely on coarse, pre-defined rubrics that lack sufficient granularity, or depend on manually constructed query-specific rubrics that are costly and difficult to scale. In this paper, we propose a pipeline to train human-preference-aligned query-specific rubric generators tailored for DeepResearch report generation. We first construct a dataset of DeepResearch-style queries annotated with human preferences over paired reports, and train rubric generators via reinforcement learning with a hybrid reward combining human preference supervision and LLM-based rubric evaluation. To better handle long-horizon reasoning, we further introduce a Multi-agent Markov-state (MaMs) workflow for report generation. We empirically show that our proposed rubric generators deliver more discriminative and better human-aligned supervision than existing rubric design strategies. Moreover, when integrated into the MaMs training framework, DeepResearch systems equipped with our rubric generators consistently outperform all open-source baselines on the DeepResearch Bench and achieve performance comparable to that of leading closed-source models.