Olhe Antes de Agir: Aprimorando Representações de Base Visual para Modelos Visão-Linguagem-Ação

Resumo

Os modelos Visão-Linguagem-Ação (VLA) emergiram recentemente como um paradigma promissor para a manipulação robótica, no qual a previsão confiável de ações depende criticamente da interpretação e integração precisas de observações visuais condicionadas por instruções linguísticas. Embora trabalhos recentes tenham buscado aprimorar as capacidades visuais dos modelos VLA, a maioria das abordagens trata o núcleo de LLM como uma caixa preta, fornecendo insights limitados sobre como a informação visual é fundamentada na geração de ações. Portanto, realizamos uma análise sistemática de múltiplos modelos VLA em diferentes paradigmas de geração de ações e observamos que a sensibilidade aos *tokens* visuais diminui progressivamente nas camadas mais profundas durante a geração de ações. Motivados por essa observação, propomos o DeepVision-VLA, construído sobre uma estrutura de Mistura de Transformadores de Visão e Linguagem (VL-MoT). Essa estrutura permite atenção compartilhada entre o modelo de base de visão e o núcleo VLA, injetando características visuais multinível do especialista em visão nas camadas mais profundas do núcleo VLA para aprimorar as representações visuais para manipulação precisa e complexa. Além disso, introduzimos a Poda Visual Guiada por Ação (AGVP), que aproveita a atenção das camadas superficiais para podar *tokens* visuais irrelevantes, preservando os relevantes para a tarefa, reforçando pistas visuais críticas para a manipulação com sobrecarga computacional mínima. O DeepVision-VLA supera os melhores métodos anteriores em 9,0% e 7,5% em tarefas simuladas e do mundo real, respectivamente, fornecendo novos insights para o projeto de modelos VLA visualmente aprimorados.

English

Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose DeepVision-VLA, built on a Vision-Language Mixture-of-Transformers (VL-MoT) framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce Action-Guided Visual Pruning (AGVP), which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.

Olhe Antes de Agir: Aprimorando Representações de Base Visual para Modelos Visão-Linguagem-Ação

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Resumo

Support