RL Residuo Off-Policy per l'Affinamento di Politiche di Clonazione del Comportamento
Residual Off-Policy RL for Finetuning Behavior Cloning Policies
September 23, 2025
Autori: Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
cs.AI
Abstract
I recenti progressi nel comportamento clonato (BC) hanno permesso di sviluppare politiche di controllo visuomotorio impressionanti. Tuttavia, questi approcci sono limitati dalla qualità delle dimostrazioni umane, dallo sforzo manuale richiesto per la raccolta dei dati e dai rendimenti decrescenti derivanti dall'aumento dei dati offline. Al contrario, l'apprendimento per rinforzo (RL) addestra un agente attraverso l'interazione autonoma con l'ambiente e ha dimostrato un notevole successo in vari domini. Tuttavia, l'addestramento diretto di politiche RL su robot del mondo reale rimane impegnativo a causa dell'inefficienza campionaria, delle preoccupazioni legate alla sicurezza e della difficoltà di apprendere da ricompense sparse per compiti a lungo termine, specialmente per sistemi con un alto grado di libertà (DoF). Presentiamo una ricetta che combina i vantaggi di BC e RL attraverso un framework di apprendimento residuo. Il nostro approccio sfrutta le politiche BC come basi black-box e apprende correzioni residue leggere passo-passo tramite RL off-policy ad alta efficienza campionaria. Dimostriamo che il nostro metodo richiede solo segnali di ricompensa binari sparsi e può migliorare efficacemente le politiche di manipolazione su sistemi con alto grado di libertà (DoF) sia in simulazione che nel mondo reale. In particolare, dimostriamo, per quanto ne sappiamo, il primo addestramento RL di successo nel mondo reale su un robot umanoide con mani abili. I nostri risultati dimostrano prestazioni all'avanguardia in vari compiti basati sulla visione, indicando una via pratica per l'implementazione di RL nel mondo reale. Sito web del progetto: https://residual-offpolicy-rl.github.io
English
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots remains challenging due to
sample inefficiency, safety concerns, and the difficulty of learning from
sparse rewards for long-horizon tasks, especially for high-degree-of-freedom
(DoF) systems. We present a recipe that combines the benefits of BC and RL
through a residual learning framework. Our approach leverages BC policies as
black-box bases and learns lightweight per-step residual corrections via
sample-efficient off-policy RL. We demonstrate that our method requires only
sparse binary reward signals and can effectively improve manipulation policies
on high-degree-of-freedom (DoF) systems in both simulation and the real world.
In particular, we demonstrate, to the best of our knowledge, the first
successful real-world RL training on a humanoid robot with dexterous hands. Our
results demonstrate state-of-the-art performance in various vision-based tasks,
pointing towards a practical pathway for deploying RL in the real world.
Project website: https://residual-offpolicy-rl.github.io