RubricEM: Meta-RL con Descomposición de Políticas Guiada por Rúbricas más allá de Recompensas Verificables

Resumen

Entrenar agentes de investigación profunda —es decir, sistemas que planifican, buscan, evalúan evidencia y sintetizan informes extensos— lleva el aprendizaje por refuerzo más allá del régimen de recompensas verificables. Sus salidas carecen de respuestas de referencia, sus trayectorias abarcan numerosas decisiones aumentadas por herramientas, y el entrenamiento posterior estándar ofrece pocos mecanismos para convertir intentos pasados en experiencia reutilizable. En este trabajo, sostenemos que las rúbricas no deben funcionar únicamente como evaluadores de respuestas finales, sino como la interfaz compartida que estructura la ejecución de la política, la retroalimentación del evaluador y la memoria del agente. A partir de esta visión, presentamos RubricEM, un marco de aprendizaje por refuerzo guiado por rúbricas que combina la descomposición de políticas por etapas con la evolución de meta-políticas basada en reflexión. RubricEM primero hace que las trayectorias de investigación sean conscientes de las etapas, condicionando la planificación, la recopilación de evidencia, la revisión y la síntesis a rúbricas autogeneradas. Luego asigna crédito mediante Stage-Structured GRPO, que utiliza juicios de rúbricas por etapas para proporcionar retroalimentación semántica más densa para la optimización a largo plazo. En paralelo, RubricEM entrena una meta-política de reflexión con espina dorsal compartida que destila las trayectorias evaluadas en guías reutilizables basadas en rúbricas para intentos futuros. El RubricEM-8B resultante logra un rendimiento sólido en cuatro referencias de investigación a largo plazo, superando a modelos abiertos comparables y acercándose a sistemas propietarios de investigación profunda. Más allá del rendimiento final, realizamos análisis exhaustivos para comprender los ingredientes clave de RubricEM.

English

Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.

RubricEM: Meta-RL con Descomposición de Políticas Guiada por Rúbricas más allá de Recompensas Verificables

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

Resumen

Support