De Principiante a Profesional: Dominio Eficiente de Habilidades mediante Ajuste Fino RL con Contracción de Distribución
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning
March 10, 2026
Autores: Zhanyi Sun, Shuran Song
cs.AI
Resumen
Presentamos Distribution Contractive Reinforcement Learning (DICE-RL), un marco que utiliza el aprendizaje por refuerzo (RL) como un operador de "contracción de distribución" para refinar políticas generativas preentrenadas en robótica. DICE-RL convierte un prior de comportamiento preentrenado en una política "profesional" de alto rendimiento mediante la amplificación de comportamientos de alto éxito a partir de retroalimentación en línea. Preentrenamos una política basada en difusión o flujo para una amplia cobertura conductual, y luego la ajustamos con un marco estable y eficiente en muestras de RL residual fuera de política que combina una regularización conductual selectiva con una selección de acciones guiada por valores. Experimentos y análisis exhaustivos demuestran que DICE-RL mejora de manera confiable el rendimiento con una sólida estabilidad y eficiencia de muestreo. Permite dominar habilidades complejas de manipulación de horizonte largo directamente desde entradas de píxeles de alta dimensión, tanto en simulación como en un robot real. Sitio web del proyecto: https://zhanyisun.github.io/dice.rl.2026/.
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.