Make-An-Agent: Um Gerador de Rede de Política Generalizável com Difusão Induzida por Comportamento
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion
July 15, 2024
Autores: Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu
cs.AI
Resumo
Podemos gerar uma política de controle para um agente usando apenas uma demonstração de comportamentos desejados como estímulo, tão facilmente quanto criar uma imagem a partir de uma descrição textual? Neste artigo, apresentamos o Make-An-Agent, um novo gerador de parâmetros de política que aproveita o poder de modelos de difusão condicional para a geração de comportamento para política. Guiado por incrustações de comportamento que codificam informações de trajetória, nosso gerador de política sintetiza representações de parâmetros latentes, que podem então ser decodificados em redes de política. Treinado em checkpoints de redes de política e suas trajetórias correspondentes, nosso modelo de geração demonstra notável versatilidade e escalabilidade em múltiplas tarefas e possui uma forte capacidade de generalização em tarefas não vistas para produzir políticas bem executadas com apenas algumas demonstrações como entradas. Demonstramos sua eficácia e eficiência em vários domínios e tarefas, incluindo objetivos variados, comportamentos e até mesmo em diferentes manipuladores de robôs. Além da simulação, implantamos diretamente políticas geradas pelo Make-An-Agent em robôs do mundo real em tarefas de locomoção.
English
Can we generate a control policy for an agent using just one demonstration of
desired behaviors as a prompt, as effortlessly as creating an image from a
textual description? In this paper, we present Make-An-Agent, a novel policy
parameter generator that leverages the power of conditional diffusion models
for behavior-to-policy generation. Guided by behavior embeddings that encode
trajectory information, our policy generator synthesizes latent parameter
representations, which can then be decoded into policy networks. Trained on
policy network checkpoints and their corresponding trajectories, our generation
model demonstrates remarkable versatility and scalability on multiple tasks and
has a strong generalization ability on unseen tasks to output well-performed
policies with only few-shot demonstrations as inputs. We showcase its efficacy
and efficiency on various domains and tasks, including varying objectives,
behaviors, and even across different robot manipulators. Beyond simulation, we
directly deploy policies generated by Make-An-Agent onto real-world robots on
locomotion tasks.