OTTER: テキスト認識型視覚特徴抽出を備えた視覚-言語-行動モデル
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
著者: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
要旨
Vision-Language-Action (VLA) モデルは、視覚的観察と言語指示に基づいてロボットの動作を予測することを目的としています。既存のアプローチでは、視覚と言語の特徴が独立して下流のポリシーに供給されるため、事前学習済みの視覚言語モデル(VLM)を微調整する必要があり、事前学習された意味的アラインメントが劣化してしまいます。本研究では、OTTERという新しいVLAアーキテクチャを提案します。OTTERは、明示的でテキストを意識した視覚特徴抽出を通じて、これらの既存のアラインメントを活用します。OTTERはすべての視覚特徴を処理するのではなく、言語指示と意味的に整合したタスク関連の視覚特徴のみを選択的に抽出し、ポリシートランスフォーマーに渡します。これにより、OTTERは事前学習済みの視覚言語エンコーダを凍結したままにすることができます。その結果、OTTERは大規模な事前学習から得られた豊富な意味理解を保持し、強力なゼロショット汎化能力を実現します。シミュレーションおよび実世界の実験において、OTTERは既存のVLAモデルを大幅に上回り、新しい物体や環境に対する強力なゼロショット汎化能力を示しました。動画、コード、チェックポイント、データセット: https://ottervla.github.io/。
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary