ChatPaper.aiChatPaper

GRAPE: Generalización de Políticas de Robot mediante Alineación de Preferencias

GRAPE: Generalizing Robot Policy via Preference Alignment

November 28, 2024
Autores: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI

Resumen

A pesar de los avances recientes de los modelos visión-lenguaje-acción (VLA) en una variedad de tareas de robótica, sufren de problemas críticos como una pobre generalización a tareas no vistas, debido a su dependencia exclusiva en la clonación de comportamientos solo de ejecuciones exitosas. Además, típicamente son ajustados finamente para replicar demostraciones recopiladas por expertos bajo diferentes configuraciones, introduciendo así sesgo de distribución y limitando su adaptabilidad a diversos objetivos de manipulación, como eficiencia, seguridad y finalización de tareas. Para cerrar esta brecha, presentamos GRAPE: Generalizando Políticas de Robot a través de Alineación de Preferencias. Específicamente, GRAPE alinea VLA a nivel de trayectoria y modela implícitamente la recompensa tanto de ejecuciones exitosas como fallidas para mejorar la generalización a diversas tareas. Además, GRAPE descompone tareas de manipulación complejas en etapas independientes y guía automáticamente el modelado de preferencias a través de restricciones espacio-temporales personalizadas con puntos clave propuestos por un gran modelo visión-lenguaje. Destacadamente, estas restricciones son flexibles y pueden ser personalizadas para alinear el modelo con diversos objetivos, como seguridad, eficiencia o éxito en la tarea. Evaluamos GRAPE en una amplia gama de tareas tanto en entornos del mundo real como simulados. Los resultados experimentales demuestran que GRAPE mejora el rendimiento de los modelos VLA de última generación, aumentando las tasas de éxito en tareas de manipulación en dominio y no vistas en un 51.79% y 60.36%, respectivamente. Además, GRAPE puede ser alineado con varios objetivos, como seguridad y eficiencia, reduciendo las tasas de colisión en un 44.31% y la longitud de paso de ejecución en un 11.15%, respectivamente. Todo el código, modelos y datos están disponibles en https://grape-vla.github.io/
English
Despite the recent advancements of vision-language-action (VLA) models on a variety of robotics tasks, they suffer from critical issues such as poor generalizability to unseen tasks, due to their reliance on behavior cloning exclusively from successful rollouts. Furthermore, they are typically fine-tuned to replicate demonstrations collected by experts under different settings, thus introducing distribution bias and limiting their adaptability to diverse manipulation objectives, such as efficiency, safety, and task completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level and implicitly models reward from both successful and failure trials to boost generalizability to diverse tasks. Moreover, GRAPE breaks down complex manipulation tasks to independent stages and automatically guides preference modeling through customized spatiotemporal constraints with keypoints proposed by a large vision-language model. Notably, these constraints are flexible and can be customized to align the model with varying objectives, such as safety, efficiency, or task success. We evaluate GRAPE across a diverse array of tasks in both real-world and simulated environments. Experimental results demonstrate that GRAPE enhances the performance of state-of-the-art VLA models, increasing success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%, respectively. Additionally, GRAPE can be aligned with various objectives, such as safety and efficiency, reducing collision rates by 44.31% and rollout step-length by 11.15%, respectively. All code, models, and data are available at https://grape-vla.github.io/

Summary

AI-Generated Summary

PDF482December 2, 2024