ChatPaper.aiChatPaper

RubricEM: 검증 가능한 보상을 넘어서는 루브릭 기반 정책 분해를 통한 메타 강화학습

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

May 11, 2026
저자: Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
cs.AI

초록

심층 연구 에이전트, 즉 계획을 세우고, 검색하며, 증거를 평가하고 장문 보고서를 종합하는 시스템을 훈련하는 작업은 강화 학습을 검증 가능한 보상 체계 밖으로 밀어낸다. 이러한 에이전트의 출력에는 정답이 없으며, 그 궤적은 다양한 도구 기반 결정을 수반하고, 표준 사후 훈련은 과거 시도를 재사용 가능한 경험으로 전환할 메커니즘을 거의 제공하지 않는다. 본 연구에서는 루브릭이 단순한 최종 답변 평가자 역할을 넘어, 정책 실행, 평가자 피드백, 에이전트 메모리를 구조화하는 공유 인터페이스 역할을 해야 한다고 주장한다. 이 관점에 기반하여, 우리는 단계별 정책 분해와 반성 기반 메타 정책 진화를 결합한 루브릭 기반 강화 학습 프레임워크인 RubricEM을 소개한다. RubricEM은 먼저 연구 궤적을 단계 인식적으로 만들어, 계획 수립, 증거 수집, 검토, 종합을 자체 생성된 루브릭에 조건화한다. 그런 다음 단계 구조화 GRPO(Stage-Structured GRPO)를 통해 신용 할당을 수행하며, 이는 단계별 루브릭 판단을 활용하여 장기 최적화를 위한 더 조밀한 의미 피드백을 제공한다. 동시에 RubricEM은 공유 백본을 갖춘 반성 메타 정책을 훈련하여 평가된 궤적을 재사용 가능한 루브릭 기반 지침으로 증류하고, 이를 향후 시도에 활용한다. 그 결과 RubricEM-8B는 네 가지 장문 연구 벤치마크에서 강력한 성능을 달성하며, 유사한 공개 모델을 능가하고 독점 심층 연구 시스템에 근접한다. 최종 성능 외에도, 우리는 RubricEM의 핵심 구성 요소를 이해하기 위해 철저한 분석을 수행한다.
English
Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.
PDF661May 14, 2026