Au-delà de la vue : Ajustement fin des politiques robotiques généralistes avec des capteurs hétérogènes via l'ancrage linguistique
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
January 8, 2025
Auteurs: Joshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine
cs.AI
Résumé
Interagir avec le monde est une expérience multi-sensorielle : parvenir à une interaction généraliste efficace nécessite d'utiliser toutes les modalités disponibles - y compris la vision, le toucher et l'audio - pour combler les lacunes de l'observation partielle. Par exemple, lorsque la vision est obstruée en plongeant la main dans un sac, un robot devrait se fier à ses sens du toucher et du son. Cependant, les politiques de robot généralistes de pointe sont généralement entraînées sur de grands ensembles de données pour prédire les actions du robot uniquement à partir d'observations visuelles et proprioceptives. Dans ce travail, nous proposons FuSe, une approche novatrice qui permet de peaufiner les politiques généralistes visuo-motrices sur des modalités sensorielles hétérogènes pour lesquelles de grands ensembles de données ne sont pas facilement disponibles en exploitant le langage naturel comme base croisée modale commune. Nous combinons une perte contrastive multimodale avec une perte de génération de langage ancrée dans les sensations pour encoder des sémantiques de haut niveau. Dans le contexte de la manipulation robotique, nous montrons que FuSe permet d'accomplir des tâches difficiles qui nécessitent un raisonnement conjoint sur des modalités telles que la vision, le toucher et le son dans un cadre de zéro-shot, tel que la sollicitation multimodale, la sollicitation croisée compositionnelle et les descriptions des objets avec lesquels il interagit. Nous montrons que la même recette est applicable à des politiques généralistes largement différentes, y compris les politiques généralistes basées sur la diffusion et les grands modèles vision-langage-action (VLA). Des expériences approfondies dans le monde réel montrent que FuSe est capable d'augmenter les taux de réussite de plus de 20% par rapport à toutes les lignes de base considérées.
English
Interacting with the world is a multi-sensory experience: achieving effective
general-purpose interaction requires making use of all available modalities --
including vision, touch, and audio -- to fill in gaps from partial observation.
For example, when vision is occluded reaching into a bag, a robot should rely
on its senses of touch and sound. However, state-of-the-art generalist robot
policies are typically trained on large datasets to predict robot actions
solely from visual and proprioceptive observations. In this work, we propose
FuSe, a novel approach that enables finetuning visuomotor generalist policies
on heterogeneous sensor modalities for which large datasets are not readily
available by leveraging natural language as a common cross-modal grounding. We
combine a multimodal contrastive loss with a sensory-grounded language
generation loss to encode high-level semantics. In the context of robot
manipulation, we show that FuSe enables performing challenging tasks that
require reasoning jointly over modalities such as vision, touch, and sound in a
zero-shot setting, such as multimodal prompting, compositional cross-modal
prompting, and descriptions of objects it interacts with. We show that the same
recipe is applicable to widely different generalist policies, including both
diffusion-based generalist policies and large vision-language-action (VLA)
models. Extensive experiments in the real world show that FuSeis able to
increase success rates by over 20% compared to all considered baselines.Summary
AI-Generated Summary