Mirar Antes de Actuar: Mejorando las Representaciones de las Fundaciones de Visión para Modelos de Visión-Lenguaje-Acción

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) han surgido recientemente como un paradigma prometedor para la manipulación robótica, en el que la predicción fiable de acciones depende críticamente de interpretar e integrar con precisión las observaciones visuales condicionadas por instrucciones de lenguaje. Aunque trabajos recientes han buscado mejorar las capacidades visuales de los modelos VLA, la mayoría de los enfoques tratan al modelo de lenguaje grande (LLM) subyacente como una caja negra, proporcionando una comprensión limitada de cómo la información visual se fundamenta en la generación de acciones. Por lo tanto, realizamos un análisis sistemático de múltiples modelos VLA en diferentes paradigmas de generación de acciones y observamos que la sensibilidad a los tokens visuales disminuye progresivamente en las capas más profundas durante la generación de acciones. Motivados por esta observación, proponemos DeepVision-VLA, construido sobre un marco de Mezcla de Transformadores de Visión-Lenguaje (VL-MoT). Este marco permite una atención compartida entre el modelo base de visión y el modelo VLA, inyectando características visuales multinivel desde el experto en visión hacia las capas más profundas del modelo VLA para mejorar las representaciones visuales destinadas a una manipulación precisa y compleja. Adicionalmente, introducimos la Poda Visual Guiada por Acciones (AGVP), que aprovecha la atención de las capas superficiales para podar tokens visuales irrelevantes preservando los relevantes para la tarea, reforzando así las claves visuales críticas para la manipulación con una sobrecarga computacional mínima. DeepVision-VLA supera a los mejores métodos anteriores en un 9.0% y un 7.5% en tareas simuladas y del mundo real, respectivamente, proporcionando nuevas perspectivas para el diseño de modelos VLA visualmente mejorados.

English

Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose DeepVision-VLA, built on a Vision-Language Mixture-of-Transformers (VL-MoT) framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce Action-Guided Visual Pruning (AGVP), which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.

Mirar Antes de Actuar: Mejorando las Representaciones de las Fundaciones de Visión para Modelos de Visión-Lenguaje-Acción

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Resumen

Support