Виноград: Обобщение политики робота через выравнивание предпочтений
GRAPE: Generalizing Robot Policy via Preference Alignment
November 28, 2024
Авторы: Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao
cs.AI
Аннотация
Несмотря на недавние достижения моделей вид-язык-действие (VLA) в различных задачах робототехники, они сталкиваются с критическими проблемами, такими как плохая обобщаемость на невиденные задачи из-за своей зависимости исключительно от клонирования поведения из успешных прогонов. Более того, они обычно донастраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит распределительный сдвиг и ограничивает их приспособляемость к разнообразным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Для преодоления этого разрыва мы представляем GRAPE: Обобщение политики робота через выравнивание предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как успешных, так и неудачных испытаний для увеличения обобщаемости на разнообразные задачи. Более того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через настраиваемые пространственно-временные ограничения с ключевыми точками, предложенными крупной моделью вид-язык. Заметим, что эти ограничения гибки и могут быть настроены для выравнивания модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE на разнообразных задачах как в реальных, так и в симулированных средах. Экспериментальные результаты показывают, что GRAPE улучшает производительность современных моделей VLA, увеличивая процент успеха на внутридоменных и невиденных задачах манипуляции соответственно на 51,79% и 60,36%. Кроме того, GRAPE может быть выровнен с различными целями, такими как безопасность и эффективность, снижая процент столкновений на 44,31% и длину шага прогона на 11,15% соответственно. Весь код, модели и данные доступны на https://grape-vla.github.io/
English
Despite the recent advancements of vision-language-action (VLA) models on a
variety of robotics tasks, they suffer from critical issues such as poor
generalizability to unseen tasks, due to their reliance on behavior cloning
exclusively from successful rollouts. Furthermore, they are typically
fine-tuned to replicate demonstrations collected by experts under different
settings, thus introducing distribution bias and limiting their adaptability to
diverse manipulation objectives, such as efficiency, safety, and task
completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy
via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level
and implicitly models reward from both successful and failure trials to boost
generalizability to diverse tasks. Moreover, GRAPE breaks down complex
manipulation tasks to independent stages and automatically guides preference
modeling through customized spatiotemporal constraints with keypoints proposed
by a large vision-language model. Notably, these constraints are flexible and
can be customized to align the model with varying objectives, such as safety,
efficiency, or task success. We evaluate GRAPE across a diverse array of tasks
in both real-world and simulated environments. Experimental results demonstrate
that GRAPE enhances the performance of state-of-the-art VLA models, increasing
success rates on in-domain and unseen manipulation tasks by 51.79% and 60.36%,
respectively. Additionally, GRAPE can be aligned with various objectives, such
as safety and efficiency, reducing collision rates by 44.31% and rollout
step-length by 11.15%, respectively. All code, models, and data are available
at https://grape-vla.github.io/Summary
AI-Generated Summary