ChatPaper.aiChatPaper

VisualThink-VLA: Visuelles Zwischenreasoning für effektive und latenzarme Vision-Language-Action-Policys

VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

May 28, 2026
Autoren: Mingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang
cs.AI

Zusammenfassung

Jüngste Arbeiten haben begonnen, Vision-Sprache-Aktion-Policys (VLA) mit explizitem Zwischenreasoning auszustatten. Bei der verkörperten Steuerung ist textuelles Chain-of-Thought jedoch ungeeignet: irrelevante oder schwach textuelle Informationen können die Aktionsvorhersage stören, während autoregressives Textdecodieren für eine echtzeitnahe geschlossene Ausführung zu viel Latenz verursacht. Wir präsentieren VISUALTHINK-VLA, ein Framework für visuelles Zwischenreasoning für präzise VLA-Policys mit niedriger Latenz. Unsere Bootstrapping-Philosophie besteht darin, Aktionen durch effektives visuelles Denken zu leiten: VISUALTHINK-VLA bootet die Aktionsvorhersage über eine kompakte visuelle Evidenzschnittstelle, die räumliche Präzision bewahrt und gleichzeitig Decodierungs-Overhead vermeidet. Darüber hinaus führt VISUALTHINK-VLA zur weiteren Verbesserung von Leistung und Effizienz einen maßgeschneiderten selektiven Routing-Mechanismus ein, um die visuellen Evidenz-Token zu lernen, was eine Inferenz mit niedriger Latenz bei gleichzeitiger Beibehaltung einer hohen Kapazitätsspezialisierung ermöglicht. Wir führen auch VisualEvidence-Kit ein, eine Überwachungs- und Prüfressource, die sich auf einen VisualEvidence-Agenten konzentriert, der einen 754,7k VLA-Anweisungen umfassenden VisualEvidence-Set für die Routenüberwachung und kontrafaktische Treuetests erstellt. Über mehrere Benchmarks und reale Roboterbewertungen hinweg erreicht VISUALTHINK-VLA die höchste Erfolgsrate bei den meisten Benchmarks und reduziert gleichzeitig die mehrsekündige Latenz von reasoning-gestützten Baselines auf den Subsekundenbereich. Beispielsweise wird auf BridgeData V2 die Schrittlatenz von 8,377 s mit ECoT auf 0,367 s reduziert, was einer 22,8-fachen Beschleunigung entspricht.
English
Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.