Adaptation de politique robotique via méta-apprentissage dans l'espace des poids

Résumé

Les modèles Vision-Langage-Action (VLA) émergent comme un paradigme prometteur pour la manipulation robotique, permettant des politiques à usage général entraînées à partir de vastes corpus de démonstrations et d'annotations d'actions. Cependant, l'adaptation de ces modèles à de nouvelles tâches nécessite encore généralement des démonstrations spécifiques à la tâche, des annotations d'actions et un ajustement fin supplémentaire, ce qui rend le déploiement coûteux et difficile à passer à l'échelle. Nous proposons WIZARD, un cadre d'apprentissage méta dans l'espace des poids qui contourne l'ajustement fin spécifique à la tâche en générant des paramètres LoRA spécifiques à la tâche pour une politique VLA gelée. Étant donné seulement une instruction en langage et une courte vidéo de démonstration, WIZARD prédit les poids d'adaptation correspondants en un seul passage avant, sans annotations d'actions pour la tâche cible ni optimisation au moment du test. Pendant l'apprentissage méta, WIZARD apprend à mapper directement les preuves de la tâche aux mises à jour LoRA expertes, capturant les relations entre les tâches dans l'espace des poids. Les expériences sur LIBERO montrent que WIZARD améliore les performances jusqu'à ~2x sur des collections de données non vues et jusqu'à ~14x sur des tâches non vues. Sur un Franka Emika Panda, WIZARD améliore constamment une ligne de base adaptée au domaine réel, montrant que les adaptateurs générés fournissent une spécialisation au niveau de la tâche au-delà de la simulation.

English

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.