Abrufen, nicht neu trainieren: Erweiterung von Vision-Language-Action-Modellen auf neue Aufgaben zur Testzeit

Zusammenfassung

Die Erweiterung einer Vision-Language-Action (VLA)-Richtlinie auf eine neue Aufgabe erfordert typischerweise aufgabenspezifische teleoperierte Demonstrationen und ein aufgabenspezifisches Feintuning, was die Anpassung sowohl hinsichtlich des Datensammelns als auch des Rechenaufwands kostspielig macht. In dieser Arbeit zeigen wir, dass dieser zielseitige, aufgabenspezifische Anpassungsaufwand durch Retrieval ersetzt werden kann. Unsere retrieval-erweiterte Richtlinie wird einmalig auf gepaarten Demonstrationen der Zielausführung (Query) und einer günstigeren Ausführung (Pool, z. B. menschliches Handvideo) trainiert und dann eingefroren. Neue Aufgaben werden zur Bereitstellung hinzugefügt, indem Pool-seitige Demonstrationen an einen Retrieval-Pool angehängt werden. Die eingefrorene Richtlinie konditioniert bei jedem Steuerungsschritt auf abgerufene Trajektorien, sodass neue Aufgaben durch Indizierung von Daten aufgenommen werden, anstatt Parameter zu aktualisieren. Feintuning ist nur erforderlich, um eine neue, ungesehene Ausführung zu übernehmen, nicht für jede neue Aufgabe. Wir zeigen, dass Retrieval Richtlinien über ein spezifisches Rückgrat hinaus verbessert, einschließlich standardmäßiger VLA-Richtlinien, aber seine Wirkung ist besonders ausgeprägt in Cosmos Policy, einem auf Videogenerierung basierenden Weltaktionsmodell (WAM). In diesem Setting liefert Retrieval einen groben Aufgabenfortschritt, während das Zukunftsbild-Ziel des WAM ein zusätzliches visuelles Konsistenzsignal bereitstellt, das die retrieval-konditionierten Aktionen verstärkt. Auf PushT untersuchen wir, wie Retrieval einen wiederverwendbaren übergeordneten Bewegungs-Prior für die ausführungsübergreifende Generalisierung auf ungesehene Zielwinkel bereitstellt, während auf RoboTwin 2.0 unsere Methode ausführungsübergreifende Basislinien bei ungesehenen Aufgaben übertrifft, und wir demonstrieren die Methode zusätzlich an einem echten Roboter.

English

Extending a vision-language-action (VLA) policy to a new task typically requires task-specific teleoperated demonstrations and per-task fine-tuning, making adaptation costly in both data collection and compute. In this paper, we show that this target-side per-task adaptation cost can be replaced by retrieval. Our retrieval-augmented policy is trained once on paired demonstrations from the target embodiment (query) and a cheaper embodiment (pool, e.g., human-hand video), then frozen. New tasks are added at deployment by appending pool-side demonstrations to a retrieval pool. The frozen policy conditions on retrieved trajectories at every control step, so new tasks are absorbed by indexing data rather than updating parameters. Fine-tuning is needed only to take on a new, unseen embodiment, not for each new task. We show that retrieval improves policies beyond a specific backbone, including standard VLA policies, but its effect is especially pronounced in Cosmos Policy, a video-generation-based world-action model (WAM). In this setting, retrieval supplies coarse task progression, while the WAM's future-image objective provides an additional visual consistency signal that strengthens the retrieval-conditioned actions. On PushT, we study how retrieval provides a reusable high-level motion prior for cross-embodiment generalization to unseen goal angles, while on RoboTwin 2.0 our method outperforms cross-embodiment baselines on unseen tasks, and we additionally demonstrate the method on a real robot.