Robotbeleidsaanpassing via meta-leren in de gewichtsruimte

Samenvatting

Visie-taal-actie (VLA) modellen komen naar voren als een veelbelovend paradigma voor robotmanipulatie, doordat zij algemeen toepasbare beleidsregels mogelijk maken die zijn getraind op grote verzamelingen demonstraties en actieannotaties. Het aanpassen van deze modellen aan nieuwe taken vereist echter nog steeds doorgaans taakspecifieke demonstraties, actieannotaties en extra fijnafstemming, wat de implementatie kostbaar en moeilijk schaalbaar maakt. Wij stellen WIZARD voor, een meta-leerraamwerk in de gewichtsruimte dat taakspecifieke fijnafstemming omzeilt door taakspecifieke LoRA-parameters te genereren voor een bevroren VLA-beleid. Op basis van slechts een taalopdracht en een korte demonstratievideo voorspelt WIZARD de bijbehorende aanpassingsgewichten in een enkele voorwaartse doorgang, zonder actielabels van de doeltaak of optimalisatie tijdens testtijd. Tijdens meta-training leert WIZARD om taakbewijs direct te koppelen aan LoRA-updates van experts, waarbij relaties tussen taken in de gewichtsruimte worden vastgelegd. Experimenten op LIBERO tonen aan dat WIZARD de prestaties verbetert met tot ~2x op ongeziene datasetverzamelingen en tot ~14x op ongeziene taken. Op een Franka Emika Panda presteert WIZARD consistent beter dan een op het echte domein aangepaste basislijn, wat aantoont dat gegenereerde adapters taakspecifieke specialisatie bieden die verder gaat dan simulatie.

English

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.