Make-An-Agent : Un générateur de réseau de politiques généralisable avec diffusion guidée par le comportement

papers.abstract

Pouvons-nous générer une politique de contrôle pour un agent en utilisant une seule démonstration de comportements souhaités comme prompt, aussi facilement que créer une image à partir d'une description textuelle ? Dans cet article, nous présentons Make-An-Agent, un nouveau générateur de paramètres de politique qui exploite la puissance des modèles de diffusion conditionnelle pour la génération de comportements en politiques. Guidé par des embeddings de comportement qui encodent les informations de trajectoire, notre générateur de politiques synthétise des représentations latentes de paramètres, qui peuvent ensuite être décodées en réseaux de politiques. Entraîné sur des points de contrôle de réseaux de politiques et leurs trajectoires correspondantes, notre modèle de génération démontre une polyvalence et une scalabilité remarquables sur plusieurs tâches, ainsi qu'une forte capacité de généralisation sur des tâches inédites pour produire des politiques performantes avec seulement quelques démonstrations en entrée. Nous illustrons son efficacité et son efficience dans divers domaines et tâches, incluant des objectifs variés, des comportements différents, et même à travers différents manipulateurs robotiques. Au-delà de la simulation, nous déployons directement les politiques générées par Make-An-Agent sur des robots réels pour des tâches de locomotion.

English

Can we generate a control policy for an agent using just one demonstration of desired behaviors as a prompt, as effortlessly as creating an image from a textual description? In this paper, we present Make-An-Agent, a novel policy parameter generator that leverages the power of conditional diffusion models for behavior-to-policy generation. Guided by behavior embeddings that encode trajectory information, our policy generator synthesizes latent parameter representations, which can then be decoded into policy networks. Trained on policy network checkpoints and their corresponding trajectories, our generation model demonstrates remarkable versatility and scalability on multiple tasks and has a strong generalization ability on unseen tasks to output well-performed policies with only few-shot demonstrations as inputs. We showcase its efficacy and efficiency on various domains and tasks, including varying objectives, behaviors, and even across different robot manipulators. Beyond simulation, we directly deploy policies generated by Make-An-Agent onto real-world robots on locomotion tasks.

Make-An-Agent : Un générateur de réseau de politiques généralisable avec diffusion guidée par le comportement

Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

papers.abstract

Support