OTTER: Um Modelo Visão-Linguagem-Ação com Extração de Características Visuais Conscientes do Texto
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Autores: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA) visam prever ações robóticas com base em observações visuais e instruções em linguagem natural. As abordagens existentes exigem o ajuste fino de modelos pré-treinados de visão e linguagem (VLMs), pois as características visuais e linguísticas são alimentadas de forma independente em políticas subsequentes, degradando os alinhamentos semânticos pré-treinados. Propomos o OTTER, uma nova arquitetura VLA que aproveita esses alinhamentos existentes por meio de extração explícita de características visuais conscientes do texto. Em vez de processar todas as características visuais, o OTTER seleciona e passa apenas as características visuais relevantes para a tarefa que estão semanticamente alinhadas com a instrução em linguagem para o transformador de política. Isso permite que o OTTER mantenha os codificadores de visão e linguagem pré-treinados congelados. Assim, o OTTER preserva e utiliza o rico entendimento semântico aprendido em pré-treinamentos em larga escala, permitindo fortes capacidades de generalização zero-shot. Em experimentos de simulação e no mundo real, o OTTER supera significativamente os modelos VLA existentes, demonstrando uma forte generalização zero-shot para novos objetos e ambientes. Vídeo, código, checkpoints e conjunto de dados: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary