Adaptación de Políticas Robóticas mediante Meta-Aprendizaje en el Espacio de Pesos

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) emergen como un paradigma prometedor para la manipulación robótica, permitiendo políticas de propósito general entrenadas a partir de grandes corpus de demostraciones y etiquetas de acción. Sin embargo, adaptar estos modelos a nuevas tareas aún suele requerir demostraciones específicas, anotaciones de acción y ajuste fino adicional, lo que encarece y dificulta la escalabilidad del despliegue. Proponemos WIZARD, un marco de meta-aprendizaje en el espacio de pesos que evita el ajuste fino específico de cada tarea generando parámetros LoRA específicos para una política VLA congelada. Dada solo una instrucción lingüística y un video de demostración breve, WIZARD predice los pesos de adaptación correspondientes en un solo paso directo, sin etiquetas de acción de la tarea objetivo ni optimización en tiempo de prueba. Durante el meta-entrenamiento, WIZARD aprende a mapear la evidencia de la tarea directamente a actualizaciones LoRA expertas, capturando relaciones entre tareas en el espacio de pesos. Los experimentos en LIBERO muestran que WIZARD mejora el rendimiento hasta ~2× en colecciones de conjuntos de datos no vistos y hasta ~14× en tareas no vistas. En un Franka Emika Panda, WIZARD mejora consistentemente sobre una línea base adaptada al dominio real, demostrando que los adaptadores generados proporcionan especialización a nivel de tarea más allá de la simulación.

English

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.