ChatPaper.aiChatPaper

Maximiser l'alignement avec un minimum de retours : Apprentissage efficace des récompenses pour l'alignement des politiques des robots visuomoteurs.

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

December 6, 2024
Auteurs: Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
cs.AI

Résumé

Les politiques de robot visuomoteur, de plus en plus pré-entraînées sur des ensembles de données à grande échelle, promettent des avancées significatives dans divers domaines de la robotique. Cependant, l'alignement de ces politiques avec les préférences des utilisateurs finaux reste un défi, en particulier lorsque les préférences sont difficiles à spécifier. Alors que l'apprentissage par renforcement à partir des retours humains (RLHF) est devenu le mécanisme prédominant pour l'alignement dans des domaines non incarnés tels que les grands modèles de langage, il n'a pas connu le même succès dans l'alignement des politiques visuomotrices en raison de la quantité prohibitive de retours humains nécessaires pour apprendre des fonctions de récompense visuelle. Pour répondre à cette limitation, nous proposons l'Apprentissage basé sur les préférences alignées sur la représentation (RAPL), une méthode basée uniquement sur l'observation pour apprendre des récompenses visuelles à partir de retours humains considérablement moins nombreux. Contrairement au RLHF traditionnel, le RAPL se concentre sur le réglage fin des codeurs de vision pré-entraînés pour les aligner avec la représentation visuelle de l'utilisateur final, puis construit une récompense visuelle dense via la correspondance des caractéristiques dans cet espace de représentation aligné. Nous validons d'abord le RAPL à travers des expériences de simulation dans le benchmark X-Magical et la manipulation robotique Franka Panda, démontrant qu'il peut apprendre des récompenses alignées avec les préférences humaines, utiliser plus efficacement les données de préférence et généraliser à travers les incarnations de robots. Enfin, nos expériences matérielles alignent des Politiques de Diffusion pré-entraînées pour trois tâches de manipulation d'objets. Nous constatons que le RAPL peut affiner ces politiques avec 5 fois moins de données de préférence humaine réelle, franchissant ainsi la première étape vers la réduction des retours humains tout en maximisant l'alignement des politiques de robot visuomoteur.
English
Visuomotor robot policies, increasingly pre-trained on large-scale datasets, promise significant advancements across robotics domains. However, aligning these policies with end-user preferences remains a challenge, particularly when the preferences are hard to specify. While reinforcement learning from human feedback (RLHF) has become the predominant mechanism for alignment in non-embodied domains like large language models, it has not seen the same success in aligning visuomotor policies due to the prohibitive amount of human feedback required to learn visual reward functions. To address this limitation, we propose Representation-Aligned Preference-based Learning (RAPL), an observation-only method for learning visual rewards from significantly less human preference feedback. Unlike traditional RLHF, RAPL focuses human feedback on fine-tuning pre-trained vision encoders to align with the end-user's visual representation and then constructs a dense visual reward via feature matching in this aligned representation space. We first validate RAPL through simulation experiments in the X-Magical benchmark and Franka Panda robotic manipulation, demonstrating that it can learn rewards aligned with human preferences, more efficiently uses preference data, and generalizes across robot embodiments. Finally, our hardware experiments align pre-trained Diffusion Policies for three object manipulation tasks. We find that RAPL can fine-tune these policies with 5x less real human preference data, taking the first step towards minimizing human feedback while maximizing visuomotor robot policy alignment.

Summary

AI-Generated Summary

PDF22December 11, 2024