Адаптация политики робота посредством мета-обучения в пространстве весов

Аннотация

Модели Vision-Language-Action (VLA) становятся перспективной парадигмой для роботизированного манипулирования, позволяя использовать политики общего назначения, обученные на больших корпусах демонстраций и аннотаций действий. Однако адаптация этих моделей к новым задачам по-прежнему обычно требует демонстраций, специфичных для задачи, аннотаций действий и дополнительной тонкой настройки, что делает развертывание дорогим и трудно масштабируемым. Мы предлагаем WIZARD — фреймворк мета-обучения в пространстве весов, который обходит необходимость в тонкой настройке для конкретной задачи, генерируя параметры LoRA, специфичные для задачи, для замороженной политики VLA. При наличии только языковой инструкции и короткого демонстрационного видео WIZARD предсказывает соответствующие веса адаптации за один прямой проход, без меток действий целевой задачи или оптимизации во время тестирования. В ходе мета-обучения WIZARD учится напрямую отображать свидетельства задачи в экспертные обновления LoRA, фиксируя взаимосвязи между задачами в пространстве весов. Эксперименты на LIBERO показывают, что WIZARD улучшает производительность до ~2 раз на невидимых наборах данных и до ~14 раз на невидимых задачах. На Franka Emika Panda WIZARD последовательно превосходит базовый вариант, адаптированный к реальной области, что демонстрирует, что сгенерированные адаптеры обеспечивают специализацию на уровне задачи за пределами симуляции.

English

Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.