ChatPaper.aiChatPaper

Maximaliseren van Afstemming met Minimale Feedback: Efficiënt Leren van Beloningen voor Visuomotorische Robotbeleidsafstemming

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

December 6, 2024
Auteurs: Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
cs.AI

Samenvatting

Visuomotor robotbeleidslijnen, die steeds vaker vooraf zijn getraind op grootschalige datasets, beloven aanzienlijke vooruitgang in verschillende robotica domeinen. Het afstemmen van deze beleidslijnen op de voorkeuren van eindgebruikers blijft echter een uitdaging, vooral wanneer de voorkeuren moeilijk te specificeren zijn. Hoewel versterkend leren van menselijke feedback (RLHF) het dominante mechanisme is geworden voor afstemming in niet-lichamelijke domeinen zoals grote taalmodellen, heeft het niet hetzelfde succes gezien in het afstemmen van visuomotor beleidslijnen vanwege de aanzienlijke hoeveelheid menselijke feedback die nodig is om visuele beloningsfuncties te leren. Om deze beperking aan te pakken, stellen we Representation-Aligned Preference-based Learning (RAPL) voor, een methode die alleen op observatie is gebaseerd voor het leren van visuele beloningen met aanzienlijk minder menselijke voorkeursfeedback. In tegenstelling tot traditioneel RLHF, richt RAPL zich op het verfijnen van vooraf getrainde visuele encoders om af te stemmen op de visuele representatie van de eindgebruiker en construeert vervolgens een dichte visuele beloning via kenmerkovereenkomsten in deze afgestemde representatieruimte. We valideren RAPL eerst via simulatie-experimenten in de X-Magical benchmark en Franka Panda robotmanipulatie, waarbij we aantonen dat het beloningen kan leren die zijn afgestemd op menselijke voorkeuren, efficiënter gebruikmaakt van voorkeursgegevens en generaliseert over robotuitvoeringen. Ten slotte richten onze hardware-experimenten vooraf getrainde Diffusion Policies voor drie objectmanipulatietaken af. We constateren dat RAPL deze beleidslijnen kan verfijnen met 5x minder echte menselijke voorkeursgegevens, waarmee de eerste stap wordt gezet naar het minimaliseren van menselijke feedback en het maximaliseren van de afstemming van visuomotor robotbeleid.
English
Visuomotor robot policies, increasingly pre-trained on large-scale datasets, promise significant advancements across robotics domains. However, aligning these policies with end-user preferences remains a challenge, particularly when the preferences are hard to specify. While reinforcement learning from human feedback (RLHF) has become the predominant mechanism for alignment in non-embodied domains like large language models, it has not seen the same success in aligning visuomotor policies due to the prohibitive amount of human feedback required to learn visual reward functions. To address this limitation, we propose Representation-Aligned Preference-based Learning (RAPL), an observation-only method for learning visual rewards from significantly less human preference feedback. Unlike traditional RLHF, RAPL focuses human feedback on fine-tuning pre-trained vision encoders to align with the end-user's visual representation and then constructs a dense visual reward via feature matching in this aligned representation space. We first validate RAPL through simulation experiments in the X-Magical benchmark and Franka Panda robotic manipulation, demonstrating that it can learn rewards aligned with human preferences, more efficiently uses preference data, and generalizes across robot embodiments. Finally, our hardware experiments align pre-trained Diffusion Policies for three object manipulation tasks. We find that RAPL can fine-tune these policies with 5x less real human preference data, taking the first step towards minimizing human feedback while maximizing visuomotor robot policy alignment.
PDF22December 11, 2024