Ophalen, Niet Opnieuw Trainen: Uitbreiding van Visie-Taal-Actiemodellen naar Nieuwe Taken tijdens de Testfase

Samenvatting

Het uitbreiden van een visie-taal-actie (VLA)-beleid naar een nieuwe taak vereist doorgaans taakspecifieke op afstand bestuurde demonstraties en per-taak fine-tuning, wat aanpassing kostbaar maakt qua zowel gegevensverzameling als rekenkracht. In dit artikel tonen we aan dat deze aanpassingskosten per taak aan de doelzijde kunnen worden vervangen door retrieval. Ons retrieval-versterkte beleid wordt eenmalig getraind op gepaarde demonstraties van de beoogde belichaming (query) en een goedkopere belichaming (pool, bijv. een menselijke handvideo), en vervolgens bevroren. Nieuwe taken worden tijdens de inzet toegevoegd door demonstraties van de poolzijde aan een retrieval-pool toe te voegen. Het bevroren beleid conditioneert op opgehaalde trajecten bij iedere controlestap, zodat nieuwe taken worden geabsorbeerd door het indexeren van gegevens in plaats van het bijwerken van parameters. Fine-tuning is alleen nodig om een nieuwe, ongeziene belichaming aan te nemen, niet voor elke nieuwe taak. We tonen aan dat retrieval beleid verbetert naast een specifieke backbone, inclusief standaard VLA-beleid, maar het effect is vooral uitgesproken in Cosmos Policy, een op videogeneratie gebaseerd wereld-actiemodel (WAM). In deze setting levert retrieval een grove taakprogressie, terwijl de toekomstbeelddoelstelling van de WAM een extra visueel consistentiesignaal biedt dat de retrieval-geconditioneerde acties versterkt. Op PushT bestuderen we hoe retrieval een herbruikbare hoog-niveau bewegingsprior biedt voor cross-embodiment generalisatie naar ongeziene doelhoeken, terwijl op RoboTwin 2.0 onze methode cross-embodiment baselines overtreft op ongeziene taken, en we demonstreren de methode bovendien op een echte robot.

English

Extending a vision-language-action (VLA) policy to a new task typically requires task-specific teleoperated demonstrations and per-task fine-tuning, making adaptation costly in both data collection and compute. In this paper, we show that this target-side per-task adaptation cost can be replaced by retrieval. Our retrieval-augmented policy is trained once on paired demonstrations from the target embodiment (query) and a cheaper embodiment (pool, e.g., human-hand video), then frozen. New tasks are added at deployment by appending pool-side demonstrations to a retrieval pool. The frozen policy conditions on retrieved trajectories at every control step, so new tasks are absorbed by indexing data rather than updating parameters. Fine-tuning is needed only to take on a new, unseen embodiment, not for each new task. We show that retrieval improves policies beyond a specific backbone, including standard VLA policies, but its effect is especially pronounced in Cosmos Policy, a video-generation-based world-action model (WAM). In this setting, retrieval supplies coarse task progression, while the WAM's future-image objective provides an additional visual consistency signal that strengthens the retrieval-conditioned actions. On PushT, we study how retrieval provides a reusable high-level motion prior for cross-embodiment generalization to unseen goal angles, while on RoboTwin 2.0 our method outperforms cross-embodiment baselines on unseen tasks, and we additionally demonstrate the method on a real robot.