ChatPaper.aiChatPaper

Du Débutant au Professionnel : Maîtrise Efficace des Compétences par Finetuning RL à Contraction de Distribution

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

March 10, 2026
Auteurs: Zhanyi Sun, Shuran Song
cs.AI

Résumé

Nous présentons DICE-RL (Distribution Contractive Reinforcement Learning), un cadre utilisant l'apprentissage par renforcement (RL) comme opérateur de "contraction distributionnelle" pour affiner des politiques génératives préentraînées en robotique. DICE-RL transforme un prior comportemental préentraîné en politique "experte" hautement performante en amplifiant les comportements à fort taux de succès via des retours en ligne. Nous préentraînons une politique basée sur des modèles de diffusion ou de flux pour une couverture comportementale étendue, puis nous la peaufinons avec un cadre RL résiduel hors politique, stable et économe en échantillons, combinant régularisation comportementale sélective et sélection d'actions guidée par la valeur. Des expérimentations et analyses approfondies montrent que DICE-RL améliore fièrement les performances avec une grande stabilité et efficacité d'échantillonnage. Il permet la maîtrise de compétences de manipulation complexes à long terme directement à partir d'entrées pixel de haute dimension, tant en simulation que sur un robot réel. Site du projet : https://zhanyisun.github.io/dice.rl.2026/.
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.
PDF22March 20, 2026