Van Beginner tot Expert: Efficiënte Vaardigheidsverwerving via Distribution Contractieve RL Afstemming
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning
March 10, 2026
Auteurs: Zhanyi Sun, Shuran Song
cs.AI
Samenvatting
Wij introduceren Distribution Contractive Reinforcement Learning (DICE-RL), een raamwerk dat reinforcement learning (RL) gebruikt als een "distributie-contractie"-operator om voorgetrainde generatieve robotbeleidsregels te verfijnen. DICE-RL transformeert een voorgetraind gedragsprior in een hoogpresterend "pro"-beleid door gedrag met een hoge slagingskans te versterken op basis van online feedback. Wij trainen eerst een op diffusie of flows gebaseerd beleid voor brede gedragsdekking, en verfijnen het vervolgens met een stabiel, sample-efficiënt residueel off-policy RL-raamwerk dat selectieve gedragsregularisatie combineert met waardegestuurde actieselectie. Uitgebreide experimenten en analyses tonen aan dat DICE-RL de prestaties betrouwbaar verbetert met sterke stabiliteit en sample-efficiëntie. Het maakt de beheersing mogelijk van complexe manipulatievaardigheden met een lange tijdshorizon, rechtstreeks vanuit hoogdimensionale pixelinputs, zowel in simulatie als op een echte robot. Projectwebsite: https://zhanyisun.github.io/dice.rl.2026/.
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.