OTTER : Un modèle vision-langage-action avec extraction de caractéristiques visuelles sensibles au texte
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Auteurs: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Résumé
Les modèles Vision-Langage-Action (VLA) visent à prédire les actions robotiques en fonction des observations visuelles et des instructions langagières. Les approches existantes nécessitent un ajustement fin des modèles vision-langage pré-entraînés (VLMs), car les caractéristiques visuelles et langagières sont indépendamment injectées dans les politiques en aval, ce qui dégrade les alignements sémantiques pré-entraînés. Nous proposons OTTER, une nouvelle architecture VLA qui exploite ces alignements existants grâce à une extraction explicite de caractéristiques visuelles consciente du texte. Au lieu de traiter toutes les caractéristiques visuelles, OTTER sélectionne et transmet uniquement les caractéristiques visuelles pertinentes pour la tâche, alignées sémantiquement avec l'instruction langagière, au transformateur de politique. Cela permet à OTTER de maintenir les encodeurs vision-langage pré-entraînés figés. Ainsi, OTTER préserve et utilise la riche compréhension sémantique apprise lors de l'entraînement à grande échelle, permettant de solides capacités de généralisation en zero-shot. Dans des expériences en simulation et dans le monde réel, OTTER surpasse significativement les modèles VLA existants, démontrant une forte généralisation en zero-shot pour de nouveaux objets et environnements. Vidéo, code, points de contrôle et jeu de données : https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary