ChatPaper.aiChatPaper

От новичка к профессионалу: эффективное освоение навыков с помощью распределительно-контрактивной RL-дообучения

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

March 10, 2026
Авторы: Zhanyi Sun, Shuran Song
cs.AI

Аннотация

Мы представляем фреймворк Distribution Contractive Reinforcement Learning (DICE-RL), который использует обучение с подкреплением (RL) в качестве оператора "контракции распределения" для уточнения предварительно обученных генеративных политик роботов. DICE-RL превращает априорное распределение поведений, полученное при предварительном обучении, в высокопроизводительную "профессиональную" политику, усиливая поведения с высокой успешностью на основе онлайн-обратной связи. Мы предварительно обучаем политику на основе диффузии или потоков для широкого охвата поведений, а затем дообучаем её с помощью стабильного и эффективного по выборкам Residual off-policy RL фреймворка, который сочетает селективную регуляризацию поведения с выбором действий на основе ценности. Многочисленные эксперименты и анализ показывают, что DICE-RL надежно улучшает производительность, демонстрируя высокую стабильность и эффективность использования данных. Он позволяет осваивать сложные навыки манипулирования с длительным горизонтом планирования непосредственно из высокоразмерных пиксельных входов, как в симуляции, так и на реальном роботе. Сайт проекта: https://zhanyisun.github.io/dice.rl.2026/.
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.
PDF22March 20, 2026