Auf dem Weg zu einem synergistischen, generalisierten und effizienten Dualsystem für robotergestützte Manipulation.
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
Autoren: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
Zusammenfassung
Die zunehmende Nachfrage nach vielseitigen Robotersystemen, die in verschiedenen und dynamischen Umgebungen eingesetzt werden können, hat die Bedeutung einer Generalistenstrategie betont, die auf einem großen Datenkorpus verschiedener Körper basiert, um eine breite Anpassungsfähigkeit und hochrangiges Denken zu erleichtern. Allerdings würde der Generalist mit ineffizienter Inferenz und kostspieligem Training zu kämpfen haben. Die Spezialistenstrategie hingegen ist für spezifische Domänendaten konzipiert und zeichnet sich durch präzise Aufgabenebene mit Effizienz aus. Es fehlt ihr jedoch an der Verallgemeinerungsfähigkeit für eine Vielzahl von Anwendungen. Inspiriert von diesen Beobachtungen stellen wir RoboDual vor, ein synergistisches Dualsystem, das die Vorteile sowohl der Generalisten- als auch der Spezialistenstrategie ergänzt. Ein auf Diffusionstransformatoren basierter Spezialist wurde für mehrstufige Aktionsabläufe entwickelt, die exquisit auf dem Verständnis der hochrangigen Aufgabe und der diskreten Aktionsausgabe eines auf Vision-Sprache-Aktion (VLA) basierenden Generalisten konditioniert sind. Im Vergleich zu OpenVLA erzielt RoboDual eine Verbesserung von 26,7 % in realen Umgebungen und einen Gewinn von 12 % bei CALVIN, indem eine Spezialistenstrategie mit lediglich 20 Millionen trainierbaren Parametern eingeführt wird. Es behält eine starke Leistung bei nur 5 % der Demonstrationsdaten und ermöglicht eine 3,8-mal höhere Steuerfrequenz bei der Bereitstellung in der realen Welt. Der Code wird öffentlich zugänglich gemacht. Unsere Projektseite ist unter folgender Adresse zu finden: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary