Roboterpolitikanpassung durch Meta-Lernen im Gewichtsraum

Zusammenfassung

Vision-Language-Action (VLA)-Modelle entwickeln sich zu einem vielversprechenden Paradigma für die Robotermanipulation, da sie universelle Strategien ermöglichen, die aus großen Korpora von Demonstrationen und Aktionsannotationen trainiert werden. Allerdings erfordert die Anpassung dieser Modelle an neue Aufgaben nach wie vor typischerweise aufgabenspezifische Demonstrationen, Aktionsannotationen und zusätzliche Feinabstimmung, was den Einsatz kostspielig und schwer skalierbar macht. Wir stellen WIZARD vor, ein Meta-Learning-Framework im Gewichtsraum, das die aufgabenspezifische Feinabstimmung umgeht, indem es aufgabenspezifische LoRA-Parameter für eine eingefrorene VLA-Strategie generiert. Basierend nur auf einer Sprachinstruktion und einem kurzen Demonstrationsvideo sagt WIZARD die entsprechenden Anpassungsgewichte in einem einzigen Vorwärtsdurchlauf voraus, ohne Zielaufgaben-Aktionslabels oder Optimierung zur Testzeit. Während des Meta-Trainings lernt WIZARD, Aufgabenbelege direkt auf Experten-LoRA-Updates abzubilden und so Beziehungen zwischen Aufgaben im Gewichtsraum zu erfassen. Experimente auf LIBERO zeigen, dass WIZARD die Leistung auf unbekannten Datensatzsammlungen um bis zu etwa das Zweifache und auf unbekannten Aufgaben um bis zu etwa das 14-fache verbessert. Auf einem Franka Emika Panda übertrifft WIZARD konsistent eine in der realen Domäne angepasste Basislinie, was zeigt, dass die generierten Adapter eine aufgabenbezogene Spezialisierung über die Simulation hinaus ermöglichen.

English

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.