Adaptação de Políticas Robóticas via Meta-Aprendizagem no Espaço de Pesos

Resumo

Modelos Visão-Linguagem-Ação (VLA) estão emergindo como um paradigma promissor para manipulação robótica, possibilitando políticas de uso geral treinadas a partir de grandes conjuntos de demonstrações e rótulos de ação. No entanto, adaptar esses modelos a novas tarefas ainda exige tipicamente demonstrações específicas da tarefa, anotações de ação e ajuste fino adicional, tornando a implantação custosa e difícil de escalar. Propomos o WIZARD, uma estrutura de meta-aprendizagem no espaço de pesos que contorna o ajuste fino específico da tarefa ao gerar parâmetros LoRA específicos da tarefa para uma política VLA congelada. Dadas apenas uma instrução em linguagem e um breve vídeo de demonstração, o WIZARD prevê os respectivos pesos de adaptação em uma única passagem direta, sem rótulos de ação da tarefa alvo ou otimização em tempo de teste. Durante o meta-treinamento, o WIZARD aprende a mapear evidências da tarefa diretamente para atualizações LoRA de especialista, capturando relações entre tarefas no espaço de pesos. Experimentos no LIBERO mostram que o WIZARD melhora o desempenho em até ~2x em coleções de conjuntos de dados não vistos e em até ~14x em tarefas não vistas. Em um Franka Emika Panda, o WIZARD melhora consistentemente em relação a uma linha de base adaptada ao domínio real, mostrando que os adaptadores gerados fornecem especialização em nível de tarefa além da simulação.

English

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.