最小限のフィードバックでアラインメントを最大化する: 視覚運動ロボットポリシーアラインメントの効率的な報酬学習
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment
December 6, 2024
著者: Ran Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
cs.AI
要旨
視覚運動ロボットポリシーは、大規模なデータセットでますます事前にトレーニングされるようになり、ロボティクス領域全体で大きな進歩が期待されています。ただし、これらのポリシーをエンドユーザーの好みと整合させることは依然として課題であり、特に好みを具体化するのが難しい場合にはそうです。人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデルなどの非具現化された領域で整合性を図るための主要なメカニズムとなっていますが、視覚運動ポリシーの整合性を図る際には、視覚報酬関数を学習するために必要な人間のフィードバックの量が膨大であるため、同じ成功を収めていません。この制限に対処するために、私たちは「表現に整合した好みに基づく学習(RAPL)」を提案します。これは、観察のみを用いた方法で、はるかに少ない人間の好みのフィードバックから視覚報酬を学習するものです。従来のRLHFとは異なり、RAPLは、人間のフィードバックを事前にトレーニングされたビジョンエンコーダーを微調整してエンドユーザーの視覚表現と整合させ、その整合した表現空間での特徴一致を通じて密な視覚報酬を構築します。最初に、X-MagicalベンチマークとFranka Pandaロボティック操作のシミュレーション実験を通じてRAPLを検証し、人間の好みと整合した報酬を学習し、好みデータを効率的に使用し、ロボットの具現化を横断的に一般化することができることを示します。最後に、3つの物体操作タスクに対して事前にトレーニングされた拡散ポリシーを整合させるハードウェア実験を行います。RAPLは、これらのポリシーを実際の人間の好みデータを5倍少なく使用して微調整できることがわかり、人間のフィードバックを最小限に抑えつつ視覚運動ロボットポリシーの整合性を最大化する第一歩を踏み出しています。
English
Visuomotor robot policies, increasingly pre-trained on large-scale datasets,
promise significant advancements across robotics domains. However, aligning
these policies with end-user preferences remains a challenge, particularly when
the preferences are hard to specify. While reinforcement learning from human
feedback (RLHF) has become the predominant mechanism for alignment in
non-embodied domains like large language models, it has not seen the same
success in aligning visuomotor policies due to the prohibitive amount of human
feedback required to learn visual reward functions. To address this limitation,
we propose Representation-Aligned Preference-based Learning (RAPL), an
observation-only method for learning visual rewards from significantly less
human preference feedback. Unlike traditional RLHF, RAPL focuses human feedback
on fine-tuning pre-trained vision encoders to align with the end-user's visual
representation and then constructs a dense visual reward via feature matching
in this aligned representation space. We first validate RAPL through simulation
experiments in the X-Magical benchmark and Franka Panda robotic manipulation,
demonstrating that it can learn rewards aligned with human preferences, more
efficiently uses preference data, and generalizes across robot embodiments.
Finally, our hardware experiments align pre-trained Diffusion Policies for
three object manipulation tasks. We find that RAPL can fine-tune these policies
with 5x less real human preference data, taking the first step towards
minimizing human feedback while maximizing visuomotor robot policy alignment.Summary
AI-Generated Summary