GRAPE: Generalização de Política de Robôs por Alinhamento de PreferênciasGRAPE: Generalizing Robot Policy via Preference Alignment
Apesar dos avanços recentes dos modelos visão-linguagem-ação (VLA) em uma variedade de tarefas de robótica, eles sofrem de questões críticas, como baixa generalização para tarefas não vistas, devido à sua dependência exclusiva da clonagem de comportamento a partir de execuções bem-sucedidas. Além disso, eles são tipicamente ajustados para replicar demonstrações coletadas por especialistas em diferentes configurações, introduzindo viés de distribuição e limitando sua adaptabilidade a diversos objetivos de manipulação, como eficiência, segurança e conclusão da tarefa. Para preencher essa lacuna, introduzimos o GRAPE: Generalizando Política de Robô via Alinhamento de Preferência. Especificamente, o GRAPE alinha os VLA em um nível de trajetória e modela implicitamente a recompensa a partir de tentativas bem-sucedidas e fracassadas para impulsionar a generalização para diversas tarefas. Além disso, o GRAPE divide tarefas de manipulação complexas em estágios independentes e guia automaticamente a modelagem de preferência por meio de restrições espaço-temporais personalizadas com pontos-chave propostos por um grande modelo visão-linguagem. Notavelmente, essas restrições são flexíveis e podem ser personalizadas para alinhar o modelo com objetivos variados, como segurança, eficiência ou sucesso da tarefa. Avaliamos o GRAPE em uma ampla variedade de tarefas em ambientes reais e simulados. Os resultados experimentais demonstram que o GRAPE melhora o desempenho dos modelos VLA de última geração, aumentando as taxas de sucesso em tarefas de manipulação dentro e fora do domínio em 51,79% e 60,36%, respectivamente. Além disso, o GRAPE pode ser alinhado com vários objetivos, como segurança e eficiência, reduzindo as taxas de colisão em 44,31% e o comprimento do passo de execução em 11,15%, respectivamente. Todo o código, modelos e dados estão disponíveis em https://grape-vla.github.io/