Make-An-Agent : Un générateur de réseau de politiques généralisable avec diffusion guidée par le comportement
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion
July 15, 2024
Auteurs: Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu
cs.AI
Résumé
Pouvons-nous générer une politique de contrôle pour un agent en utilisant une seule démonstration de comportements souhaités comme prompt, aussi facilement que créer une image à partir d'une description textuelle ? Dans cet article, nous présentons Make-An-Agent, un nouveau générateur de paramètres de politique qui exploite la puissance des modèles de diffusion conditionnelle pour la génération de comportements en politiques. Guidé par des embeddings de comportement qui encodent les informations de trajectoire, notre générateur de politiques synthétise des représentations latentes de paramètres, qui peuvent ensuite être décodées en réseaux de politiques. Entraîné sur des points de contrôle de réseaux de politiques et leurs trajectoires correspondantes, notre modèle de génération démontre une polyvalence et une scalabilité remarquables sur plusieurs tâches, ainsi qu'une forte capacité de généralisation sur des tâches inédites pour produire des politiques performantes avec seulement quelques démonstrations en entrée. Nous illustrons son efficacité et son efficience dans divers domaines et tâches, incluant des objectifs variés, des comportements différents, et même à travers différents manipulateurs robotiques. Au-delà de la simulation, nous déployons directement les politiques générées par Make-An-Agent sur des robots réels pour des tâches de locomotion.
English
Can we generate a control policy for an agent using just one demonstration of
desired behaviors as a prompt, as effortlessly as creating an image from a
textual description? In this paper, we present Make-An-Agent, a novel policy
parameter generator that leverages the power of conditional diffusion models
for behavior-to-policy generation. Guided by behavior embeddings that encode
trajectory information, our policy generator synthesizes latent parameter
representations, which can then be decoded into policy networks. Trained on
policy network checkpoints and their corresponding trajectories, our generation
model demonstrates remarkable versatility and scalability on multiple tasks and
has a strong generalization ability on unseen tasks to output well-performed
policies with only few-shot demonstrations as inputs. We showcase its efficacy
and efficiency on various domains and tasks, including varying objectives,
behaviors, and even across different robot manipulators. Beyond simulation, we
directly deploy policies generated by Make-An-Agent onto real-world robots on
locomotion tasks.Summary
AI-Generated Summary