OTTER: Un modelo visión-lenguaje-acción con extracción de características visuales consciente del texto
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Autores: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) tienen como objetivo predecir acciones robóticas basadas en observaciones visuales e instrucciones de lenguaje. Los enfoques existentes requieren ajustar modelos preentrenados de visión y lenguaje (VLMs), ya que las características visuales y lingüísticas se introducen de forma independiente en las políticas posteriores, lo que degrada las alineaciones semánticas preentrenadas. Proponemos OTTER, una arquitectura VLA novedosa que aprovecha estas alineaciones existentes mediante la extracción explícita de características visuales conscientes del texto. En lugar de procesar todas las características visuales, OTTER extrae y pasa selectivamente solo las características visuales relevantes para la tarea que están alineadas semánticamente con la instrucción de lenguaje al transformador de políticas. Esto permite que OTTER mantenga congelados los codificadores de visión y lenguaje preentrenados. De esta manera, OTTER preserva y utiliza la rica comprensión semántica aprendida durante el preentrenamiento a gran escala, lo que permite capacidades sólidas de generalización en escenarios de cero disparos. En experimentos de simulación y del mundo real, OTTER supera significativamente a los modelos VLA existentes, demostrando una fuerte generalización de cero disparos a objetos y entornos novedosos. Video, código, puntos de control y conjunto de datos: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary