ARISE: Агентное рассуждение с внутренней эволюцией навыков в иерархическом обучении с подкреплением

Аннотация

Доминирующая парадигма улучшения математических рассуждений в языковых моделях опирается на обучение с подкреплением с верифицируемыми вознаграждениями. Однако существующие методы рассматривают каждую задачу изолированно, не используя повторно применяемые стратегии, которые возникают и накапливаются в процессе обучения. Для решения этой проблемы мы представляем ARISE (Agent Reasoning via Intrinsic Skill Evolution) — иерархическую框架 обучения с подкреплением, в которой общая политика функционирует как на высоком уровне для управления навыками, так и на низком уровне для генерации ответов (обозначаемых соответственно как Менеджер навыков и Работник). Менеджер поддерживает многоуровневую библиотеку навыков через выделенный процесс генерации навыков, который выполняет структурированное суммирование успешных траекторий решений (после выполнения), одновременно используя механизм выбора на основе политики для извлечения релевантных навыков с целью обусловливания будущих траекторий (до выполнения). Иерархическая схема вознаграждений направляет совместную эволюцию способности к рассуждению и качества библиотеки. Эксперименты на двух базовых моделях и семи тестовых наборах, охватывающих как олимпиадную математику, так и Omni-MATH, показывают, что ARISE стабильно превосходит алгоритмы семейства GRPO и базовые методы с расширенной памятью, с особенно значительным преимуществом на задачах вне распределения. Абляционные исследования подтверждают, что каждый компонент вносит вклад в наблюдаемые улучшения, а качество библиотеки и производительность рассуждений улучшаются параллельно на протяжении всего обучения. Код доступен по адресу https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE: Агентное рассуждение с внутренней эволюцией навыков в иерархическом обучении с подкреплением

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Аннотация

Support