ChatPaper.aiChatPaper

De Iniciante a Profissional: Domínio Eficiente de Habilidades via Ajuste Fino RL com Contração de Distribuição

From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

March 10, 2026
Autores: Zhanyi Sun, Shuran Song
cs.AI

Resumo

Apresentamos o Distribution Contractive Reinforcement Learning (DICE-RL), uma estrutura que utiliza aprendizagem por reforço (RL) como um operador de "contração de distribuição" para refinar políticas generativas pré-treinadas em robótica. O DICE-RL transforma um prior comportamental pré-treinado numa política de "alto desempenho" (pro) ao amplificar comportamentos de alto sucesso com base em *feedback* online. Pré-treinamos uma política baseada em difusão ou fluxo para uma ampla cobertura comportamental e, em seguida, a afinamos com uma estrutura de RL residual *off-policy*, estável e eficiente em termos de amostragem, que combina regularização comportamental seletiva com seleção de ações guiada por valor. Experimentos e análises extensivos demonstram que o DICE-RL melhora a performance de forma confiável, com alta estabilidade e eficiência de amostragem. Ele permite o domínio de habilidades complexas de manipulação de longo horizonte diretamente a partir de entradas de pixels de alta dimensão, tanto em simulação quanto em um robô real. Site do projeto: https://zhanyisun.github.io/dice.rl.2026/.
English
We introduce Distribution Contractive Reinforcement Learning (DICE-RL), a framework that uses reinforcement learning (RL) as a "distribution contraction" operator to refine pretrained generative robot policies. DICE-RL turns a pretrained behavior prior into a high-performing "pro" policy by amplifying high-success behaviors from online feedback. We pretrain a diffusion- or flow-based policy for broad behavioral coverage, then finetune it with a stable, sample-efficient residual off-policy RL framework that combines selective behavior regularization with value-guided action selection. Extensive experiments and analyses show that DICE-RL reliably improves performance with strong stability and sample efficiency. It enables mastery of complex long-horizon manipulation skills directly from high-dimensional pixel inputs, both in simulation and on a real robot. Project website: https://zhanyisun.github.io/dice.rl.2026/.
PDF22March 21, 2026