Make-An-Agent: Un Generador de Redes de Políticas Generalizable con Difusión Provocada por Comportamiento

Resumen

¿Podemos generar una política de control para un agente utilizando solo una demostración de comportamientos deseados como indicación, tan fácilmente como crear una imagen a partir de una descripción textual? En este documento, presentamos Make-An-Agent, un generador de parámetros de política novedoso que aprovecha el poder de los modelos de difusión condicional para la generación de políticas a partir de comportamientos. Guiado por incrustaciones de comportamiento que codifican información de trayectorias, nuestro generador de políticas sintetiza representaciones de parámetros latentes, que luego pueden ser decodificados en redes de políticas. Entrenado en puntos de control de redes de políticas y sus trayectorias correspondientes, nuestro modelo de generación demuestra una versatilidad y escalabilidad notables en múltiples tareas y tiene una fuerte capacidad de generalización en tareas no vistas para producir políticas bien ejecutadas con solo unas pocas demostraciones como entradas. Mostramos su eficacia y eficiencia en varios dominios y tareas, incluidos objetivos variables, comportamientos e incluso a través de diferentes manipuladores de robots. Más allá de la simulación, desplegamos directamente políticas generadas por Make-An-Agent en robots del mundo real en tareas de locomoción.

English

Can we generate a control policy for an agent using just one demonstration of desired behaviors as a prompt, as effortlessly as creating an image from a textual description? In this paper, we present Make-An-Agent, a novel policy parameter generator that leverages the power of conditional diffusion models for behavior-to-policy generation. Guided by behavior embeddings that encode trajectory information, our policy generator synthesizes latent parameter representations, which can then be decoded into policy networks. Trained on policy network checkpoints and their corresponding trajectories, our generation model demonstrates remarkable versatility and scalability on multiple tasks and has a strong generalization ability on unseen tasks to output well-performed policies with only few-shot demonstrations as inputs. We showcase its efficacy and efficiency on various domains and tasks, including varying objectives, behaviors, and even across different robot manipulators. Beyond simulation, we directly deploy policies generated by Make-An-Agent onto real-world robots on locomotion tasks.

Make-An-Agent: Un Generador de Redes de Políticas Generalizable con Difusión Provocada por Comportamiento

Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

Resumen

Support