Guardare Prima di Agire: Migliorare le Rappresentazioni delle Fondazioni Visive per i Modelli Visione-Linguaggio-Azione

Abstract

I modelli Vision-Language-Action (VLA) sono recentemente emersi come un paradigma promettente per la manipolazione robotica, in cui la previsione affidabile delle azioni dipende criticamente dall'interpretazione accurata e dall'integrazione di osservazioni visive condizionate da istruzioni linguistiche. Sebbene lavori recenti abbiano cercato di potenziare le capacità visive dei modelli VLA, la maggior parte degli approcci tratta il backbone LLM come una scatola nera, fornendo una comprensione limitata di come le informazioni visive vengano radicate nella generazione delle azioni. Pertanto, eseguiamo un'analisi sistematica di molteplici modelli VLA attraverso diversi paradigmi di generazione delle azioni e osserviamo che la sensibilità ai token visivi diminuisce progressivamente negli strati più profondi durante la generazione delle azioni. Motivati da questa osservazione, proponiamo DeepVision-VLA, costruito su un framework Vision-Language Mixture-of-Transformers (VL-MoT). Questo framework abilita un'attenzione condivisa tra il modello foundation visivo e il backbone VLA, iniettando feature visive multi-livello dall'esperto visivo negli strati più profondi del backbone VLA per potenziare le rappresentazioni visive per una manipolazione precisa e complessa. Inoltre, introduciamo l'Action-Guided Visual Pruning (AGVP), che sfrutta l'attenzione degli strati superficiali per potare i token visivi irrilevanti preservando quelli rilevanti per il compito, rinforzando gli indizi visivi critici per la manipolazione con un sovraccarico computazionale minimo. DeepVision-VLA supera i precedenti metodi state-of-the-art del 9.0% e del 7.5% rispettivamente su compiti simulati e del mondo reale, fornendo nuove intuizioni per la progettazione di modelli VLA potenziati visivamente.

English

Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose DeepVision-VLA, built on a Vision-Language Mixture-of-Transformers (VL-MoT) framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce Action-Guided Visual Pruning (AGVP), which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.

Guardare Prima di Agire: Migliorare le Rappresentazioni delle Fondazioni Visive per i Modelli Visione-Linguaggio-Azione

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Abstract

Support