Recuperar, no reentrenar: Extendiendo modelos de lenguaje-visión-acción a nuevas tareas en tiempo de prueba

Resumen

Extender una política visión-lenguaje-acción (VLA) a una nueva tarea normalmente requiere demostraciones teleoperadas específicas de la tarea y un ajuste fino por tarea, lo que hace que la adaptación sea costosa tanto en recopilación de datos como en cómputo. En este artículo, mostramos que este costo de adaptación por tarea en el lado objetivo puede ser reemplazado por recuperación. Nuestra política aumentada por recuperación se entrena una vez con demostraciones emparejadas de la encarnación objetivo (consulta) y una encarnación más económica (conjunto, por ejemplo, video de mano humana) y luego se congela. Las nuevas tareas se añaden en el momento del despliegue agregando demostraciones del lado del conjunto a un conjunto de recuperación. La política congelada se condiciona a las trayectorias recuperadas en cada paso de control, de modo que las nuevas tareas se absorben mediante la indexación de datos en lugar de actualizar parámetros. El ajuste fino solo es necesario para adoptar una nueva encarnación no vista, no para cada tarea nueva. Mostramos que la recuperación mejora las políticas más allá de un modelo base específico, incluyendo políticas VLA estándar, pero su efecto es especialmente pronunciado en Cosmos Policy, un modelo mundo-acción (WAM) basado en generación de video. En este contexto, la recuperación proporciona una progresión de tarea gruesa, mientras que el objetivo de imagen futura del WAM ofrece una señal adicional de consistencia visual que fortalece las acciones condicionadas por la recuperación. En PushT, estudiamos cómo la recuperación proporciona un prior de movimiento reusable de alto nivel para la generalización entre encarnaciones hacia ángulos objetivo no vistos, mientras que en RoboTwin 2.0 nuestro método supera a las líneas base entre encarnaciones en tareas no vistas, y adicionalmente demostramos el método en un robot real.

English

Extending a vision-language-action (VLA) policy to a new task typically requires task-specific teleoperated demonstrations and per-task fine-tuning, making adaptation costly in both data collection and compute. In this paper, we show that this target-side per-task adaptation cost can be replaced by retrieval. Our retrieval-augmented policy is trained once on paired demonstrations from the target embodiment (query) and a cheaper embodiment (pool, e.g., human-hand video), then frozen. New tasks are added at deployment by appending pool-side demonstrations to a retrieval pool. The frozen policy conditions on retrieved trajectories at every control step, so new tasks are absorbed by indexing data rather than updating parameters. Fine-tuning is needed only to take on a new, unseen embodiment, not for each new task. We show that retrieval improves policies beyond a specific backbone, including standard VLA policies, but its effect is especially pronounced in Cosmos Policy, a video-generation-based world-action model (WAM). In this setting, retrieval supplies coarse task progression, while the WAM's future-image objective provides an additional visual consistency signal that strengthens the retrieval-conditioned actions. On PushT, we study how retrieval provides a reusable high-level motion prior for cross-embodiment generalization to unseen goal angles, while on RoboTwin 2.0 our method outperforms cross-embodiment baselines on unseen tasks, and we additionally demonstrate the method on a real robot.