Más allá de la vista: Ajuste fino de políticas de robots generalistas con sensores heterogéneos a través de la fundamentación en lenguaje.
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
January 8, 2025
Autores: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
cs.AI
Resumen
Interactuar con el mundo es una experiencia multi-sensorial: lograr una interacción efectiva de propósito general requiere hacer uso de todas las modalidades disponibles, incluyendo la visión, el tacto y el audio, para completar lagunas a partir de observaciones parciales. Por ejemplo, cuando la visión está obstruida al alcanzar dentro de una bolsa, un robot debería depender de sus sentidos del tacto y del sonido. Sin embargo, las políticas de robots generalistas de vanguardia suelen entrenarse en conjuntos de datos extensos para predecir acciones del robot únicamente a partir de observaciones visuales y propioceptivas. En este trabajo, proponemos FuSe, un enfoque novedoso que permite ajustar finamente políticas generalistas visuomotoras en modalidades sensoriales heterogéneas para las cuales no hay conjuntos de datos extensos disponibles aprovechando el lenguaje natural como un punto de anclaje común entre modalidades. Combinamos una pérdida contrastiva multimodal con una pérdida de generación de lenguaje fundamentado en los sentidos para codificar semántica de alto nivel. En el contexto de la manipulación de robots, demostramos que FuSe permite realizar tareas desafiantes que requieren razonamiento conjunto sobre modalidades como la visión, el tacto y el sonido en un entorno de cero disparos, como la solicitud multimodal, la solicitud compuesta entre modalidades y descripciones de objetos con los que interactúa. Mostramos que la misma receta es aplicable a políticas generalistas ampliamente diferentes, incluidas políticas generalistas basadas en difusión y modelos grandes de visión-lenguaje-acción (VLA). Experimentos extensos en el mundo real muestran que FuSe es capaz de aumentar las tasas de éxito en más del 20% en comparación con todas las líneas base consideradas.
English
Interacting with the world is a multi-sensory experience: achieving effective
general-purpose interaction requires making use of all available modalities --
including vision, touch, and audio -- to fill in gaps from partial observation.
For example, when vision is occluded reaching into a bag, a robot should rely
on its senses of touch and sound. However, state-of-the-art generalist robot
policies are typically trained on large datasets to predict robot actions
solely from visual and proprioceptive observations. In this work, we propose
FuSe, a novel approach that enables finetuning visuomotor generalist policies
on heterogeneous sensor modalities for which large datasets are not readily
available by leveraging natural language as a common cross-modal grounding. We
combine a multimodal contrastive loss with a sensory-grounded language
generation loss to encode high-level semantics. In the context of robot
manipulation, we show that FuSe enables performing challenging tasks that
require reasoning jointly over modalities such as vision, touch, and sound in a
zero-shot setting, such as multimodal prompting, compositional cross-modal
prompting, and descriptions of objects it interacts with. We show that the same
recipe is applicable to widely different generalist policies, including both
diffusion-based generalist policies and large vision-language-action (VLA)
models. Extensive experiments in the real world show that FuSeis able to
increase success rates by over 20% compared to all considered baselines.Summary
AI-Generated Summary