RubricEM: Meta-RL с рубрико-управляемой декомпозицией стратегии за пределами верифицируемых вознаграждений

Аннотация

Обучение агентов глубокого исследования, то есть систем, которые планируют, осуществляют поиск, оценивают доказательства и синтезируют длинные отчеты, выводит обучение с подкреплением за пределы режима проверяемых вознаграждений. Их выходные данные лишены эталонных ответов, их траектории охватывают множество решений с использованием инструментов, а стандартное пост-обучение предоставляет мало механизмов для превращения прошлых попыток в повторно используемый опыт. В данной работе мы утверждаем, что рубрики должны служить не просто инструментами оценки конечного ответа, а общим интерфейсом, который структурирует выполнение политики, оценку (судейство) и память агента. Основываясь на этом представлении, мы представляем RubricEM — основанную на рубриках структуру обучения с подкреплением, которая сочетает поэтапное разложение политики с эволюцией мета-политики на основе рефлексии. RubricEM сначала делает траектории исследования осведомленными об этапах, обуславливая планирование, сбор свидетельств, проверку и синтез на основе самогенерируемых рубрик. Затем он назначает кредиты с помощью этапно-структурированной GRPO, которая использует поэтапные рубрики для обеспечения более плотной семантической обратной связи при оптимизации на длинных горизонтах. Параллельно RubricEM обучает мета-политику рефлексии с общей базой, которая дистиллирует оцененные траектории в повторно используемые руководства, основанные на рубриках, для будущих попыток. Полученная модель RubricEM-8B демонстрирует высокую производительность на четырех эталонных тестах длинных исследований, превосходя сопоставимые открытые модели и приближаясь к проприетарным системам глубокого исследования. Помимо итоговой производительности, мы проводим тщательный анализ для понимания ключевых компонентов RubricEM.

English

Training deep research agents, namely systems that plan, search, evaluate evidence, and synthesize long-form reports, pushes reinforcement learning beyond the regime of verifiable rewards. Their outputs lack ground-truth answers, their trajectories span many tool-augmented decisions, and standard post-training offers little mechanism for turning past attempts into reusable experience. In this work, we argue that rubrics should serve not merely as final-answer evaluators, but as the shared interface that structures policy execution, judge feedback, and agent memory. Based on this view, we introduce RubricEM, a rubric-guided reinforcement learning framework that combines stagewise policy decomposition with reflection-based meta-policy evolution. RubricEM first makes research trajectories stage-aware by conditioning planning, evidence gathering, review, and synthesis on self-generated rubrics. It then assigns credit with Stage-Structured GRPO, which uses stagewise rubric judgments to provide denser semantic feedback for long-horizon optimization. In parallel, RubricEM trains a shared-backbone reflection meta-policy that distills judged trajectories into reusable rubric-grounded guidance for future attempts. The resulting RubricEM-8B achieves strong performance across four long-form research benchmarks, outperforming comparable open models and approaching proprietary deep-research systems. Beyond final performance, we perform thorough analyses to understand the key ingredients of RubricEM.

RubricEM: Meta-RL с рубрико-управляемой декомпозицией стратегии за пределами верифицируемых вознаграждений

RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

Аннотация

Support