VisualThink-VLA: Visuelles Zwischenreasoning für effektive und latenzarme Vision-Language-Action-Policys

Zusammenfassung

Jüngste Arbeiten haben begonnen, Vision-Sprache-Aktion-Policys (VLA) mit explizitem Zwischenreasoning auszustatten. Bei der verkörperten Steuerung ist textuelles Chain-of-Thought jedoch ungeeignet: irrelevante oder schwach textuelle Informationen können die Aktionsvorhersage stören, während autoregressives Textdecodieren für eine echtzeitnahe geschlossene Ausführung zu viel Latenz verursacht. Wir präsentieren VISUALTHINK-VLA, ein Framework für visuelles Zwischenreasoning für präzise VLA-Policys mit niedriger Latenz. Unsere Bootstrapping-Philosophie besteht darin, Aktionen durch effektives visuelles Denken zu leiten: VISUALTHINK-VLA bootet die Aktionsvorhersage über eine kompakte visuelle Evidenzschnittstelle, die räumliche Präzision bewahrt und gleichzeitig Decodierungs-Overhead vermeidet. Darüber hinaus führt VISUALTHINK-VLA zur weiteren Verbesserung von Leistung und Effizienz einen maßgeschneiderten selektiven Routing-Mechanismus ein, um die visuellen Evidenz-Token zu lernen, was eine Inferenz mit niedriger Latenz bei gleichzeitiger Beibehaltung einer hohen Kapazitätsspezialisierung ermöglicht. Wir führen auch VisualEvidence-Kit ein, eine Überwachungs- und Prüfressource, die sich auf einen VisualEvidence-Agenten konzentriert, der einen 754,7k VLA-Anweisungen umfassenden VisualEvidence-Set für die Routenüberwachung und kontrafaktische Treuetests erstellt. Über mehrere Benchmarks und reale Roboterbewertungen hinweg erreicht VISUALTHINK-VLA die höchste Erfolgsrate bei den meisten Benchmarks und reduziert gleichzeitig die mehrsekündige Latenz von reasoning-gestützten Baselines auf den Subsekundenbereich. Beispielsweise wird auf BridgeData V2 die Schrittlatenz von 8,377 s mit ECoT auf 0,367 s reduziert, was einer 22,8-fachen Beschleunigung entspricht.

English

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.