TRAUBE: Verallgemeinerung von Roboterpolitik durch Präferenzabstimmung
GRAPE: Generalizing Robot Policy via Preference Alignment
November 28, 2024
Autoren: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI
Zusammenfassung
Trotz der jüngsten Fortschritte von Modellen für Vision-Sprache-Aktion (VLA) bei einer Vielzahl von Robotikaufgaben leiden sie unter kritischen Problemen wie mangelnder Verallgemeinerbarkeit auf unbekannte Aufgaben, aufgrund ihrer ausschließlichen Abhängigkeit von Verhaltensklonung ausschließlich von erfolgreichen Durchläufen. Darüber hinaus werden sie typischerweise feinabgestimmt, um Demonstrationen nachzubilden, die von Experten unter verschiedenen Einstellungen gesammelt wurden, wodurch Verteilungsvoreingenommenheit eingeführt wird und ihre Anpassungsfähigkeit an vielfältige Manipulationsziele wie Effizienz, Sicherheit und Aufgabenerfüllung eingeschränkt wird. Um diese Lücke zu überbrücken, stellen wir GRAPE vor: Generalisierung von Roboterpolitik durch Präferenzausrichtung. Speziell richtet GRAPE VLAs auf Trajektorienebene aus und modelliert implizit Belohnungen aus sowohl erfolgreichen als auch fehlgeschlagenen Versuchen, um die Verallgemeinerbarkeit auf vielfältige Aufgaben zu steigern. Darüber hinaus zerlegt GRAPE komplexe Manipulationsaufgaben in unabhängige Stufen und leitet die Präferenzmodellierung automatisch durch angepasste raumzeitliche Einschränkungen mit von einem großen Vision-Sprache-Modell vorgeschlagenen Schlüsselpunkten. Diese Einschränkungen sind flexibel und können angepasst werden, um das Modell mit unterschiedlichen Zielen wie Sicherheit, Effizienz oder Aufgabenerfolg in Einklang zu bringen. Wir evaluieren GRAPE über eine Vielzahl von Aufgaben in sowohl realen als auch simulierten Umgebungen. Experimentelle Ergebnisse zeigen, dass GRAPE die Leistung von modernsten VLA-Modellen verbessert, indem die Erfolgsraten bei in-domain und unbekannten Manipulationsaufgaben um 51,79 % bzw. 60,36 % gesteigert werden. Darüber hinaus kann GRAPE mit verschiedenen Zielen wie Sicherheit und Effizienz in Einklang gebracht werden, wodurch Kollisionsraten um 44,31 % bzw. Durchlaufschrittlängen um 11,15 % reduziert werden. Der gesamte Code, Modelle und Daten sind unter https://grape-vla.github.io/ verfügbar.
English
Despite the recent advancements of vision-language-action (VLA) models on a
variety of robotics tasks, they suffer from critical issues such as poor
generalizability to unseen tasks, due to their reliance on behavior cloning
exclusively from successful rollouts. Furthermore, they are typically
fine-tuned to replicate demonstrations collected by experts under different
settings, thus introducing distribution bias and limiting their adaptability to
diverse manipulation objectives, such as efficiency, safety, and task
completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy
via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level
and implicitly models reward from both successful and failure trials to boost
generalizability to diverse tasks. Moreover, GRAPE breaks down complex
manipulation tasks to independent stages and automatically guides preference
modeling through customized spatiotemporal constraints with keypoints proposed
by a large vision-language model. Notably, these constraints are flexible and
can be customized to align the model with varying objectives, such as safety,
efficiency, or task success. We evaluate GRAPE across a diverse array of tasks
in both real-world and simulated environments. Experimental results demonstrate
that GRAPE enhances the performance of state-of-the-art VLA models, increasing
success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%,
respectively. Additionally, GRAPE can be aligned with various objectives, such
as safety and efficiency, reducing collision rates by 44.31% and rollout
step-length by 11.15%, respectively. All code, models, and data are available
at https://grape-vla.github.io/Summary
AI-Generated Summary