RAISIN: Généralisation des politiques des robots via l'alignement des préférences
GRAPE: Generalizing Robot Policy via Preference Alignment
November 28, 2024
Auteurs: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI
Résumé
Malgré les récents progrès des modèles vision-langage-action (VLA) dans une variété de tâches robotiques, ils souffrent de problèmes critiques tels qu'une faible généralisabilité à des tâches inconnues, en raison de leur dépendance exclusive à l'apprentissage par imitation à partir de déploiements réussis. De plus, ils sont généralement affinés pour reproduire des démonstrations collectées par des experts dans des contextes différents, introduisant ainsi un biais de distribution et limitant leur adaptabilité à des objectifs de manipulation divers, tels que l'efficacité, la sécurité et l'achèvement des tâches. Pour combler cet écart, nous introduisons GRAPE : Généralisation de la Politique Robotique via l'Alignement des Préférences. Plus précisément, GRAPE aligne les VLA au niveau de la trajectoire et modélise implicitement la récompense à la fois des essais réussis et des échecs pour améliorer la généralisabilité à des tâches diverses. De plus, GRAPE décompose les tâches de manipulation complexes en étapes indépendantes et guide automatiquement la modélisation des préférences à travers des contraintes spatiotemporelles personnalisées avec des points clés proposés par un grand modèle vision-langage. Notamment, ces contraintes sont flexibles et peuvent être personnalisées pour aligner le modèle avec différents objectifs, tels que la sécurité, l'efficacité ou la réussite de la tâche. Nous évaluons GRAPE sur une variété de tâches dans des environnements réels et simulés. Les résultats expérimentaux montrent que GRAPE améliore les performances des modèles VLA de pointe, augmentant les taux de réussite sur les tâches de manipulation internes et inconnues de 51,79 % et 60,36 %, respectivement. De plus, GRAPE peut être aligné avec divers objectifs, tels que la sécurité et l'efficacité, réduisant les taux de collision de 44,31 % et la longueur des étapes de déploiement de 11,15 %, respectivement. Tout le code, les modèles et les données sont disponibles sur https://grape-vla.github.io/
English
Despite the recent advancements of vision-language-action (VLA) models on a
variety of robotics tasks, they suffer from critical issues such as poor
generalizability to unseen tasks, due to their reliance on behavior cloning
exclusively from successful rollouts. Furthermore, they are typically
fine-tuned to replicate demonstrations collected by experts under different
settings, thus introducing distribution bias and limiting their adaptability to
diverse manipulation objectives, such as efficiency, safety, and task
completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy
via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level
and implicitly models reward from both successful and failure trials to boost
generalizability to diverse tasks. Moreover, GRAPE breaks down complex
manipulation tasks to independent stages and automatically guides preference
modeling through customized spatiotemporal constraints with keypoints proposed
by a large vision-language model. Notably, these constraints are flexible and
can be customized to align the model with varying objectives, such as safety,
efficiency, or task success. We evaluate GRAPE across a diverse array of tasks
in both real-world and simulated environments. Experimental results demonstrate
that GRAPE enhances the performance of state-of-the-art VLA models, increasing
success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%,
respectively. Additionally, GRAPE can be aligned with various objectives, such
as safety and efficiency, reducing collision rates by 44.31% and rollout
step-length by 11.15%, respectively. All code, models, and data are available
at https://grape-vla.github.io/Summary
AI-Generated Summary