Виноград: Обобщение политики робота через выравнивание предпочтенийGRAPE: Generalizing Robot Policy via Preference Alignment
Несмотря на недавние достижения моделей вид-язык-действие (VLA) в различных задачах робототехники, они сталкиваются с критическими проблемами, такими как плохая обобщаемость на невиденные задачи из-за своей зависимости исключительно от клонирования поведения из успешных прогонов. Более того, они обычно донастраиваются для воспроизведения демонстраций, собранных экспертами в различных условиях, что вводит распределительный сдвиг и ограничивает их приспособляемость к разнообразным целям манипуляции, таким как эффективность, безопасность и завершение задачи. Для преодоления этого разрыва мы представляем GRAPE: Обобщение политики робота через выравнивание предпочтений. Конкретно, GRAPE выравнивает VLA на уровне траектории и неявно моделирует вознаграждение как успешных, так и неудачных испытаний для увеличения обобщаемости на разнообразные задачи. Более того, GRAPE разбивает сложные задачи манипуляции на независимые этапы и автоматически направляет моделирование предпочтений через настраиваемые пространственно-временные ограничения с ключевыми точками, предложенными крупной моделью вид-язык. Заметим, что эти ограничения гибки и могут быть настроены для выравнивания модели с различными целями, такими как безопасность, эффективность или успех задачи. Мы оцениваем GRAPE на разнообразных задачах как в реальных, так и в симулированных средах. Экспериментальные результаты показывают, что GRAPE улучшает производительность современных моделей VLA, увеличивая процент успеха на внутридоменных и невиденных задачах манипуляции соответственно на 51,79% и 60,36%. Кроме того, GRAPE может быть выровнен с различными целями, такими как безопасность и эффективность, снижая процент столкновений на 44,31% и длину шага прогона на 11,15% соответственно. Весь код, модели и данные доступны на https://grape-vla.github.io/