GRAPE: Generalización de Políticas de Robot mediante Alineación de PreferenciasGRAPE: Generalizing Robot Policy via Preference Alignment
A pesar de los avances recientes de los modelos visión-lenguaje-acción (VLA) en una variedad de tareas de robótica, sufren de problemas críticos como una pobre generalización a tareas no vistas, debido a su dependencia exclusiva en la clonación de comportamientos solo de ejecuciones exitosas. Además, típicamente son ajustados finamente para replicar demostraciones recopiladas por expertos bajo diferentes configuraciones, introduciendo así sesgo de distribución y limitando su adaptabilidad a diversos objetivos de manipulación, como eficiencia, seguridad y finalización de tareas. Para cerrar esta brecha, presentamos GRAPE: Generalizando Políticas de Robot a través de Alineación de Preferencias. Específicamente, GRAPE alinea VLA a nivel de trayectoria y modela implícitamente la recompensa tanto de ejecuciones exitosas como fallidas para mejorar la generalización a diversas tareas. Además, GRAPE descompone tareas de manipulación complejas en etapas independientes y guía automáticamente el modelado de preferencias a través de restricciones espacio-temporales personalizadas con puntos clave propuestos por un gran modelo visión-lenguaje. Destacadamente, estas restricciones son flexibles y pueden ser personalizadas para alinear el modelo con diversos objetivos, como seguridad, eficiencia o éxito en la tarea. Evaluamos GRAPE en una amplia gama de tareas tanto en entornos del mundo real como simulados. Los resultados experimentales demuestran que GRAPE mejora el rendimiento de los modelos VLA de última generación, aumentando las tasas de éxito en tareas de manipulación en dominio y no vistas en un 51.79% y 60.36%, respectivamente. Además, GRAPE puede ser alineado con varios objetivos, como seguridad y eficiencia, reduciendo las tasas de colisión en un 44.31% y la longitud de paso de ejecución en un 11.15%, respectivamente. Todo el código, modelos y datos están disponibles en https://grape-vla.github.io/