OTTER : Un modèle vision-langage-action avec extraction de caractéristiques visuelles sensibles au texte

papers.abstract

Les modèles Vision-Langage-Action (VLA) visent à prédire les actions robotiques en fonction des observations visuelles et des instructions langagières. Les approches existantes nécessitent un ajustement fin des modèles vision-langage pré-entraînés (VLMs), car les caractéristiques visuelles et langagières sont indépendamment injectées dans les politiques en aval, ce qui dégrade les alignements sémantiques pré-entraînés. Nous proposons OTTER, une nouvelle architecture VLA qui exploite ces alignements existants grâce à une extraction explicite de caractéristiques visuelles consciente du texte. Au lieu de traiter toutes les caractéristiques visuelles, OTTER sélectionne et transmet uniquement les caractéristiques visuelles pertinentes pour la tâche, alignées sémantiquement avec l'instruction langagière, au transformateur de politique. Cela permet à OTTER de maintenir les encodeurs vision-langage pré-entraînés figés. Ainsi, OTTER préserve et utilise la riche compréhension sémantique apprise lors de l'entraînement à grande échelle, permettant de solides capacités de généralisation en zero-shot. Dans des expériences en simulation et dans le monde réel, OTTER surpasse significativement les modèles VLA existants, démontrant une forte généralisation en zero-shot pour de nouveaux objets et environnements. Vidéo, code, points de contrôle et jeu de données : https://ottervla.github.io/.

English

Vision-Language-Action (VLA) models aim to predict robotic actions based on visual observations and language instructions. Existing approaches require fine-tuning pre-trained visionlanguage models (VLMs) as visual and language features are independently fed into downstream policies, degrading the pre-trained semantic alignments. We propose OTTER, a novel VLA architecture that leverages these existing alignments through explicit, text-aware visual feature extraction. Instead of processing all visual features, OTTER selectively extracts and passes only task-relevant visual features that are semantically aligned with the language instruction to the policy transformer. This allows OTTER to keep the pre-trained vision-language encoders frozen. Thereby, OTTER preserves and utilizes the rich semantic understanding learned from large-scale pre-training, enabling strong zero-shot generalization capabilities. In simulation and real-world experiments, OTTER significantly outperforms existing VLA models, demonstrating strong zeroshot generalization to novel objects and environments. Video, code, checkpoints, and dataset: https://ottervla.github.io/.

OTTER : Un modèle vision-langage-action avec extraction de caractéristiques visuelles sensibles au texte

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

papers.abstract

Support