RubricEM: Meta-RL mit Rubric-geleiteter Policy-Zerlegung über verifizierbare Belohnungen hinaus

Zusammenfassung

Das Training tiefer Forschungsagenten, also Systeme, die planen, suchen, Beweise evaluieren und lange Berichte synthetisieren, treibt das Verstärkungslernen über den Bereich verifizierbarer Belohnungen hinaus. Ihre Ausgaben entbehren Ground-Truth-Antworten, ihre Trajektorien umfassen viele werkzeuggestützte Entscheidungen, und standardmäßiges Post-Training bietet wenig Mechanismus, um frühere Versuche in wiederverwendbare Erfahrung zu überführen. In dieser Arbeit argumentieren wir, dass Rubriken nicht nur als Bewerter von endgültigen Antworten dienen sollten, sondern als die gemeinsame Schnittstelle, die Policy-Ausführung, Richter-Feedback und Agentengedächtnis strukturiert. Auf dieser Grundlage führen wir RubricEM ein, ein rubrikgeführtes Verstärkungslern-Framework, das stufenweise Policy-Zerlegung mit reflexionsbasierter Meta-Policy-Evolution kombiniert. RubricEM macht Forschungstrajektorien zunächst stufenbewusst, indem es Planung, Beweissammlung, Überprüfung und Synthese auf selbstgenerierte Rubriken konditioniert. Dann weist es mit Stage-Structured GRPO Kredit zu, das stufenweise Rubrikbewertungen verwendet, um dichteres semantisches Feedback für langfristige Optimierung zu liefern. Parallel dazu trainiert RubricEM eine Shared-Backbone-Reflexions-Meta-Policy, die bewertete Trajektorien in wiederverwendbare rubrikbasierte Anleitung für zukünftige Versuche destilliert. Das resultierende RubricEM-8B erzielt starke Leistungen über vier Langform-Forschungsbenchmarks, übertrifft vergleichbare offene Modelle und nähert sich proprietären Deep-Research-Systemen. Über die endgültige Leistung hinaus führen wir gründliche Analysen durch, um die Schlüsselbestandteile von RubricEM zu verstehen.

English

Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.

RubricEM: Meta-RL mit Rubric-geleiteter Policy-Zerlegung über verifizierbare Belohnungen hinaus

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

Zusammenfassung

Support