Von Anfänger zum Profi: Effiziente Fertigkeitsbeherrschung durch verteilungskontraktives RL-Finetuning
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning
March 10, 2026
Autoren: Zhanyi Sun, Shuran Song
cs.AI
Zusammenfassung
Wir stellen Distribution Contractractive Reinforcement Learning (DICE-RL) vor, einen Rahmen, der Verstärkungslernen (RL) als "Distributionskontraktions"-Operator zur Verfeinerung vortrainierter generativer Robotik-Policies nutzt. DICE-RL verwandelt eine vortrainierte Verhaltenspräferenz in eine hochleistungsfähige "Pro"-Policy, indem es erfolgsreiche Verhaltensweisen anhand von Online-Feedback verstärkt. Wir trainieren zunächst eine diffusions- oder flussbasierte Policy für eine breite Verhaltensabdeckung vor und feintunen sie anschließend mit einem stabilen, probeneffizienten residualen Off-Policy-RL-Rahmen, der selektive Verhaltensregularisierung mit wertgesteuerter Aktionsauswahl kombiniert. Umfangreiche Experimente und Analysen zeigen, dass DICE-RL die Leistung zuverlässig mit hoher Stabilität und Probeneffizienz verbessert. Es ermöglicht die Beherrschung komplexer Manipulationsfertigkeiten mit langem Zeithorizont direkt aus hochdimensionalen Pixeleingaben, sowohl in der Simulation als auch auf einem echten Roboter. Projektwebsite: https://zhanyisun.github.io/dice.rl.2026/.
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.