Maximiser l'alignement avec un minimum de retours : Apprentissage efficace des récompenses pour l'alignement des politiques des robots visuomoteurs.
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment
December 6, 2024
Auteurs: Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
cs.AI
Résumé
Les politiques de robot visuomoteur, de plus en plus pré-entraînées sur des ensembles de données à grande échelle, promettent des avancées significatives dans divers domaines de la robotique. Cependant, l'alignement de ces politiques avec les préférences des utilisateurs finaux reste un défi, en particulier lorsque les préférences sont difficiles à spécifier. Alors que l'apprentissage par renforcement à partir des retours humains (RLHF) est devenu le mécanisme prédominant pour l'alignement dans des domaines non incarnés tels que les grands modèles de langage, il n'a pas connu le même succès dans l'alignement des politiques visuomotrices en raison de la quantité prohibitive de retours humains nécessaires pour apprendre des fonctions de récompense visuelle. Pour répondre à cette limitation, nous proposons l'Apprentissage basé sur les préférences alignées sur la représentation (RAPL), une méthode basée uniquement sur l'observation pour apprendre des récompenses visuelles à partir de retours humains considérablement moins nombreux. Contrairement au RLHF traditionnel, le RAPL se concentre sur le réglage fin des codeurs de vision pré-entraînés pour les aligner avec la représentation visuelle de l'utilisateur final, puis construit une récompense visuelle dense via la correspondance des caractéristiques dans cet espace de représentation aligné. Nous validons d'abord le RAPL à travers des expériences de simulation dans le benchmark X-Magical et la manipulation robotique Franka Panda, démontrant qu'il peut apprendre des récompenses alignées avec les préférences humaines, utiliser plus efficacement les données de préférence et généraliser à travers les incarnations de robots. Enfin, nos expériences matérielles alignent des Politiques de Diffusion pré-entraînées pour trois tâches de manipulation d'objets. Nous constatons que le RAPL peut affiner ces politiques avec 5 fois moins de données de préférence humaine réelle, franchissant ainsi la première étape vers la réduction des retours humains tout en maximisant l'alignement des politiques de robot visuomoteur.
English
Visuomotor robot policies, increasingly pre-trained on large-scale datasets,
promise significant advancements across robotics domains. However, aligning
these policies with end-user preferences remains a challenge, particularly when
the preferences are hard to specify. While reinforcement learning from human
feedback (RLHF) has become the predominant mechanism for alignment in
non-embodied domains like large language models, it has not seen the same
success in aligning visuomotor policies due to the prohibitive amount of human
feedback required to learn visual reward functions. To address this limitation,
we propose Representation-Aligned Preference-based Learning (RAPL), an
observation-only method for learning visual rewards from significantly less
human preference feedback. Unlike traditional RLHF, RAPL focuses human feedback
on fine-tuning pre-trained vision encoders to align with the end-user's visual
representation and then constructs a dense visual reward via feature matching
in this aligned representation space. We first validate RAPL through simulation
experiments in the X-Magical benchmark and Franka Panda robotic manipulation,
demonstrating that it can learn rewards aligned with human preferences, more
efficiently uses preference data, and generalizes across robot embodiments.
Finally, our hardware experiments align pre-trained Diffusion Policies for
three object manipulation tasks. We find that RAPL can fine-tune these policies
with 5x less real human preference data, taking the first step towards
minimizing human feedback while maximizing visuomotor robot policy alignment.Summary
AI-Generated Summary