Handeln nach dem Sehen: Verbesserung visueller Basismodelle für Vision-Sprache-Handlung-Modelle

Zusammenfassung

Vision-Language-Action (VLA)-Modelle haben sich kürzlich als vielversprechendes Paradigma für die robotische Manipulation erwiesen, bei dem die Zuverlässigkeit der Aktionsvorhersage entscheidend von der genauen Interpretation und Integration visueller Beobachtungen abhängt, die durch Sprachinstruktionen konditioniert sind. Obwohl neuere Arbeiten versucht haben, die visuellen Fähigkeiten von VLA-Modellen zu verbessern, behandeln die meisten Ansätze das LLM-Rückgrat als Blackbox und bieten nur begrenzte Einblicke, wie visuelle Informationen in die Aktionsgenerierung eingebunden werden. Daher führen wir eine systematische Analyse mehrerer VLA-Modelle über verschiedene Aktionsgenerierungsparadigmen hinweg durch und beobachten, dass die Sensitivität für visuelle Tokens in tieferen Schichten während der Aktionsgenerierung progressiv abnimmt. Aufbauend auf dieser Beobachtung schlagen wir DeepVision-VLA vor, das auf einem Vision-Language Mixture-of-Transformers (VL-MoT)-Framework basiert. Dieses Framework ermöglicht eine geteilte Aufmerksamkeit zwischen dem Vision Foundation Model und dem VLA-Rückgrat und injiziert mehrstufige visuelle Merkmale des Vision-Experten in tiefere Schichten des VLA-Rückgrats, um visuelle Repräsentationen für präzise und komplexe Manipulation zu verbessern. Zusätzlich führen wir Action-Guided Visual Pruning (AGVP) ein, das Aufmerksamkeitsmechanismen flacher Schichten nutzt, um irrelevante visuelle Tokens zu entfernen und aufgabenrelevante beizubehalten, wodurch kritische visuelle Hinweise für die Manipulation mit minimalem Rechenaufwand verstärkt werden. DeepVision-VLA übertrifft bisherige State-of-the-Art-Methoden um 9,0 % bzw. 7,5 % bei simulierten und realen Aufgaben und liefert neue Erkenntnisse für das Design visuell verbesserter VLA-Modelle.

English

Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for robotic manipulation, in which reliable action prediction critically depends on accurately interpreting and integrating visual observations conditioned on language instructions. Although recent works have sought to enhance the visual capabilities of VLA models, most approaches treat the LLM backbone as a black box, providing limited insight into how visual information is grounded into action generation. Therefore, we perform a systematic analysis of multiple VLA models across different action-generation paradigms and observe that sensitivity to visual tokens progressively decreases in deeper layers during action generation. Motivated by this observation, we propose DeepVision-VLA, built on a Vision-Language Mixture-of-Transformers (VL-MoT) framework. This framework enables shared attention between the vision foundation model and the VLA backbone, injecting multi-level visual features from the vision expert into deeper layers of the VLA backbone to enhance visual representations for precise and complex manipulation. In addition, we introduce Action-Guided Visual Pruning (AGVP), which leverages shallow-layer attention to prune irrelevant visual tokens while preserving task-relevant ones, reinforcing critical visual cues for manipulation with minimal computational overhead. DeepVision-VLA outperforms prior state-of-the-art methods by 9.0\% and 7.5\% on simulated and real-world tasks, respectively, providing new insights for the design of visually enhanced VLA models.

Handeln nach dem Sehen: Verbesserung visueller Basismodelle für Vision-Sprache-Handlung-Modelle

Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Zusammenfassung

Support