OTTER: Un Modello Visione-Linguaggio-Azione con Estrazione di Caratteristiche Visive Consapevole del Testo
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Autori: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) mirano a prevedere le azioni robotiche basandosi su osservazioni visive e istruzioni linguistiche. Gli approcci esistenti richiedono il fine-tuning di modelli pre-addestrati visione-linguaggio (VLMs), poiché le caratteristiche visive e linguistiche vengono alimentate separatamente nelle politiche downstream, degradando gli allineamenti semantici pre-addestrati. Proponiamo OTTER, una nuova architettura VLA che sfrutta questi allineamenti esistenti attraverso un'estrazione esplicita e consapevole del testo delle caratteristiche visive. Invece di elaborare tutte le caratteristiche visive, OTTER seleziona ed estrae solo le caratteristiche visive rilevanti per il compito, allineate semanticamente con l'istruzione linguistica, e le passa al trasformatore della politica. Ciò consente a OTTER di mantenere congelati gli encoder visione-linguaggio pre-addestrati. In questo modo, OTTER preserva e utilizza la ricca comprensione semantica appresa durante il pre-addestramento su larga scala, abilitando forti capacità di generalizzazione zero-shot. In esperimenti di simulazione e nel mondo reale, OTTER supera significativamente i modelli VLA esistenti, dimostrando una forte generalizzazione zero-shot a nuovi oggetti e ambienti. Video, codice, checkpoint e dataset: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.