GRAPE: Generalização de Política de Robôs por Alinhamento de Preferências
GRAPE: Generalizing Robot Policy via Preference Alignment
November 28, 2024
Autores: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI
Resumo
Apesar dos avanços recentes dos modelos visão-linguagem-ação (VLA) em uma variedade de tarefas de robótica, eles sofrem de questões críticas, como baixa generalização para tarefas não vistas, devido à sua dependência exclusiva da clonagem de comportamento a partir de execuções bem-sucedidas. Além disso, eles são tipicamente ajustados para replicar demonstrações coletadas por especialistas em diferentes configurações, introduzindo viés de distribuição e limitando sua adaptabilidade a diversos objetivos de manipulação, como eficiência, segurança e conclusão da tarefa. Para preencher essa lacuna, introduzimos o GRAPE: Generalizando Política de Robô via Alinhamento de Preferência. Especificamente, o GRAPE alinha os VLA em um nível de trajetória e modela implicitamente a recompensa a partir de tentativas bem-sucedidas e fracassadas para impulsionar a generalização para diversas tarefas. Além disso, o GRAPE divide tarefas de manipulação complexas em estágios independentes e guia automaticamente a modelagem de preferência por meio de restrições espaço-temporais personalizadas com pontos-chave propostos por um grande modelo visão-linguagem. Notavelmente, essas restrições são flexíveis e podem ser personalizadas para alinhar o modelo com objetivos variados, como segurança, eficiência ou sucesso da tarefa. Avaliamos o GRAPE em uma ampla variedade de tarefas em ambientes reais e simulados. Os resultados experimentais demonstram que o GRAPE melhora o desempenho dos modelos VLA de última geração, aumentando as taxas de sucesso em tarefas de manipulação dentro e fora do domínio em 51,79% e 60,36%, respectivamente. Além disso, o GRAPE pode ser alinhado com vários objetivos, como segurança e eficiência, reduzindo as taxas de colisão em 44,31% e o comprimento do passo de execução em 11,15%, respectivamente. Todo o código, modelos e dados estão disponíveis em https://grape-vla.github.io/
English
Despite the recent advancements of vision-language-action (VLA) models on a
variety of robotics tasks, they suffer from critical issues such as poor
generalizability to unseen tasks, due to their reliance on behavior cloning
exclusively from successful rollouts. Furthermore, they are typically
fine-tuned to replicate demonstrations collected by experts under different
settings, thus introducing distribution bias and limiting their adaptability to
diverse manipulation objectives, such as efficiency, safety, and task
completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy
via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level
and implicitly models reward from both successful and failure trials to boost
generalizability to diverse tasks. Moreover, GRAPE breaks down complex
manipulation tasks to independent stages and automatically guides preference
modeling through customized spatiotemporal constraints with keypoints proposed
by a large vision-language model. Notably, these constraints are flexible and
can be customized to align the model with varying objectives, such as safety,
efficiency, or task success. We evaluate GRAPE across a diverse array of tasks
in both real-world and simulated environments. Experimental results demonstrate
that GRAPE enhances the performance of state-of-the-art VLA models, increasing
success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%,
respectively. Additionally, GRAPE can be aligned with various objectives, such
as safety and efficiency, reducing collision rates by 44.31% and rollout
step-length by 11.15%, respectively. All code, models, and data are available
at https://grape-vla.github.io/Summary
AI-Generated Summary