OTTER: Een Vision-Language-Action Model met Tekstbewuste Visuele Feature Extractie
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Auteurs: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Samenvatting
Vision-Language-Action (VLA) modellen hebben als doel om robotacties te voorspellen op basis van visuele waarnemingen en taal instructies. Bestaande benaderingen vereisen het finetunen van vooraf getrainde vision-language modellen (VLMs), omdat visuele en taal kenmerken onafhankelijk worden ingevoerd in downstream beleidsfuncties, wat de vooraf getrainde semantische afstemmingen aantast. Wij stellen OTTER voor, een nieuwe VLA architectuur die gebruik maakt van deze bestaande afstemmingen door expliciete, tekstbewuste visuele kenmerk extractie. In plaats van alle visuele kenmerken te verwerken, selecteert en geeft OTTER alleen taakrelevante visuele kenmerken door die semantisch zijn afgestemd op de taal instructie aan de policy transformer. Hierdoor kan OTTER de vooraf getrainde vision-language encoders bevroren houden. Daardoor behoudt en benut OTTER het rijke semantische begrip dat is geleerd uit grootschalige voorafgaande training, wat sterke zero-shot generalisatie mogelijkheden mogelijk maakt. In simulaties en real-world experimenten presteert OTTER aanzienlijk beter dan bestaande VLA modellen, wat sterke zero-shot generalisatie naar nieuwe objecten en omgevingen aantoont. Video, code, checkpoints en dataset: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary