OTTER: Модель "Видение-Язык-Действие" с извлечением визуальных признаков с учетом текста
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Авторы: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Аннотация
Модели Vision-Language-Action (VLA) предназначены для прогнозирования роботизированных действий на основе визуальных наблюдений и языковых инструкций. Существующие подходы требуют тонкой настройки предварительно обученных моделей обработки зрения и языка (VLMs), поскольку визуальные и языковые признаки независимо передаются в последующие политики, что ухудшает предварительно обученные семантические соответствия. Мы предлагаем OTTER, новую архитектуру VLA, которая использует эти существующие соответствия через явное извлечение визуальных признаков с учетом текста. Вместо обработки всех визуальных признаков OTTER выборочно извлекает и передает только те визуальные признаки, которые семантически связаны с языковой инструкцией, в трансформер политики. Это позволяет OTTER оставлять предварительно обученные кодировщики зрения и языка замороженными. Таким образом, OTTER сохраняет и использует богатое семантическое понимание, полученное в ходе крупномасштабного предварительного обучения, обеспечивая мощные возможности обобщения в условиях нулевого сценария. В симуляциях и реальных экспериментах OTTER значительно превосходит существующие модели VLA, демонстрируя сильное обобщение на новые объекты и среды в условиях нулевого сценария. Видео, код, контрольные точки и набор данных: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary