OTTER: Een Vision-Language-Action Model met Tekstbewuste Visuele Feature Extractie

Samenvatting

Vision-Language-Action (VLA) modellen hebben als doel om robotacties te voorspellen op basis van visuele waarnemingen en taal instructies. Bestaande benaderingen vereisen het finetunen van vooraf getrainde vision-language modellen (VLMs), omdat visuele en taal kenmerken onafhankelijk worden ingevoerd in downstream beleidsfuncties, wat de vooraf getrainde semantische afstemmingen aantast. Wij stellen OTTER voor, een nieuwe VLA architectuur die gebruik maakt van deze bestaande afstemmingen door expliciete, tekstbewuste visuele kenmerk extractie. In plaats van alle visuele kenmerken te verwerken, selecteert en geeft OTTER alleen taakrelevante visuele kenmerken door die semantisch zijn afgestemd op de taal instructie aan de policy transformer. Hierdoor kan OTTER de vooraf getrainde vision-language encoders bevroren houden. Daardoor behoudt en benut OTTER het rijke semantische begrip dat is geleerd uit grootschalige voorafgaande training, wat sterke zero-shot generalisatie mogelijkheden mogelijk maakt. In simulaties en real-world experimenten presteert OTTER aanzienlijk beter dan bestaande VLA modellen, wat sterke zero-shot generalisatie naar nieuwe objecten en omgevingen aantoont. Video, code, checkpoints en dataset: https://ottervla.github.io/.

English

Vision-Language-Action (VLA) models aim to predict robotic actions based on visual observations and language instructions. Existing approaches require fine-tuning pre-trained visionlanguage models (VLMs) as visual and language features are independently fed into downstream policies, degrading the pre-trained semantic alignments. We propose OTTER, a novel VLA architecture that leverages these existing alignments through explicit, text-aware visual feature extraction. Instead of processing all visual features, OTTER selectively extracts and passes only task-relevant visual features that are semantically aligned with the language instruction to the policy transformer. This allows OTTER to keep the pre-trained vision-language encoders frozen. Thereby, OTTER preserves and utilizes the rich semantic understanding learned from large-scale pre-training, enabling strong zero-shot generalization capabilities. In simulation and real-world experiments, OTTER significantly outperforms existing VLA models, demonstrating strong zeroshot generalization to novel objects and environments. Video, code, checkpoints, and dataset: https://ottervla.github.io/.

OTTER: Een Vision-Language-Action Model met Tekstbewuste Visuele Feature Extractie

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Samenvatting

Support