Make-An-Agent: Ein generalisierbarer Richtliniennetzwerk-Generator mit Verhaltensgesteuerter Diffusion
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion
July 15, 2024
Autoren: Yongyuan Liang, Tingqiang Xu, Kaizhe Hu, Guangqi Jiang, Furong Huang, Huazhe Xu
cs.AI
Zusammenfassung
Können wir eine Steuerungsrichtlinie für einen Agenten generieren, indem wir nur eine Demonstration gewünschter Verhaltensweisen als Eingabe verwenden, so mühelos wie das Erstellen eines Bildes aus einer textuellen Beschreibung? In diesem Paper präsentieren wir Make-An-Agent, einen neuartigen Richtlinienparameter-Generator, der die Leistungsfähigkeit bedingter Diffusionsmodelle für die Generierung von Verhalten-zu-Richtlinie nutzt. Angeleitet durch Verhaltenseinbettungen, die Trajektorieninformationen codieren, synthetisiert unser Richtliniengenerator latente Parameterrepräsentationen, die dann in Richtliniennetzwerke decodiert werden können. Trainiert an Richtliniennetzwerk-Checkpoint und den entsprechenden Trajektorien zeigt unser Generierungsmodell bemerkenswerte Vielseitigkeit und Skalierbarkeit in verschiedenen Aufgaben und weist eine starke Verallgemeinerungsfähigkeit auf unbekannte Aufgaben auf, um gut durchgeführte Richtlinien mit nur wenigen Demonstrationen als Eingabe zu erzeugen. Wir präsentieren seine Wirksamkeit und Effizienz in verschiedenen Bereichen und Aufgaben, einschließlich unterschiedlicher Ziele, Verhaltensweisen und sogar über verschiedene Roboter-Manipulatoren hinweg. Über die Simulation hinaus setzen wir Richtlinien, die von Make-An-Agent generiert wurden, direkt auf realen Robotern in Fortbewegungsaufgaben ein.
English
Can we generate a control policy for an agent using just one demonstration of
desired behaviors as a prompt, as effortlessly as creating an image from a
textual description? In this paper, we present Make-An-Agent, a novel policy
parameter generator that leverages the power of conditional diffusion models
for behavior-to-policy generation. Guided by behavior embeddings that encode
trajectory information, our policy generator synthesizes latent parameter
representations, which can then be decoded into policy networks. Trained on
policy network checkpoints and their corresponding trajectories, our generation
model demonstrates remarkable versatility and scalability on multiple tasks and
has a strong generalization ability on unseen tasks to output well-performed
policies with only few-shot demonstrations as inputs. We showcase its efficacy
and efficiency on various domains and tasks, including varying objectives,
behaviors, and even across different robot manipulators. Beyond simulation, we
directly deploy policies generated by Make-An-Agent onto real-world robots on
locomotion tasks.Summary
AI-Generated Summary