RubricEM : Meta-RL avec décomposition de politique guidée par barème au-delà des récompenses vérifiables
RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards
May 11, 2026
Auteurs: Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
cs.AI
Résumé
Entraîner des agents de recherche profonde, c'est-à-dire des systèmes qui planifient, recherchent, évaluent des preuves et synthétisent des rapports longs, pousse l'apprentissage par renforcement au-delà du régime des récompenses vérifiables. Leurs sorties manquent de réponses de référence, leurs trajectoires s'étendent sur de nombreuses décisions assistées par outils, et l'entraînement post-standard offre peu de mécanismes pour transformer les tentatives passées en expérience réutilisable. Dans ce travail, nous soutenons que les grilles d'évaluation devraient servir non seulement comme évaluateurs de réponses finales, mais comme l'interface partagée qui structure l'exécution des politiques, le retour des juges et la mémoire de l'agent. Sur la base de cette perspective, nous introduisons RubricEM, un cadre d'apprentissage par renforcement guidé par grille d'évaluation qui combine une décomposition progressive de la politique avec une évolution méta-politique basée sur la réflexion. RubricEM rend d'abord les trajectoires de recherche conscientes des étapes en conditionnant la planification, la collecte de preuves, la révision et la synthèse sur des grilles d'évaluation auto-générées. Ensuite, il attribue le crédit avec Stage-Structured GRPO, qui utilise des jugements de grille d'évaluation par étapes pour fournir un retour sémantique plus dense pour l'optimisation à long horizon. En parallèle, RubricEM entraîne une méta-politique de réflexion à base partagée qui distille les trajectoires jugées en conseils réutilisables ancrés dans la grille d'évaluation pour les tentatives futures. Le modèle RubricEM-8B qui en résulte atteint de bonnes performances sur quatre benchmarks de recherche longue, surpassant les modèles ouverts comparables et s'approchant des systèmes de recherche profonde propriétaires. Au-delà de la performance finale, nous effectuons des analyses approfondies pour comprendre les ingrédients clés de RubricEM.
English
Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.