VisualThink-VLA: Visuele tussenliggende redenering voor effectief en laag-latentie visie-taal-actiebeleid

Samenvatting

Recente werkzaamheden zijn begonnen met het uitrusten van visie-taal-actie (VTA) beleidslijnen met expliciete tussentijdse redenering. In belichaamde besturing is tekstuele keten-van-gedachten echter een slechte match: irrelevante of zwak tekstuele informatie kan interfereren met actievoorspelling, terwijl autoregressieve tekstdecodering te veel latentie toevoegt voor real-time gesloten-lus uitvoering. Wij presenteren VISUALTHINK-VLA, een visueel tussentijds redeneerraamwerk voor nauwkeurige, lage-latentie VTA-beleidslijnen. Onze bootstrap-filosofie is om actie te sturen met effectief visueel denken: VISUALTHINK-VLA bootstrap de actievoorspelling via een compacte visueel-bewijsinterface die ruimtelijke precisie behoudt terwijl decodeeroverhead wordt vermeden. Daarnaast neemt VISUALTHINK-VLA, om prestaties en efficiëntie verder te verbeteren, een op maat gemaakt selectief routeringsmechanisme aan om de visuele bewijstokens te leren, waardoor inferentie met lage latentie mogelijk wordt terwijl specialisatie met hoge capaciteit behouden blijft. We introduceren ook VisualEvidence-Kit, een supervisie-en-auditbron rond een VisualEvidence-Agent die een 754.7k VTA-instructies VisualEvidence-Set construeert voor routesupervisie en contrafeitelijke betrouwbaarheidstests. Over meerdere benchmarks en echte robot-evaluatie behaalt VISUALTHINK-VLA het hoogste slagingspercentage op de meeste benchmarks, terwijl de meer-seconden latentie van redenering-verrijkte baselines wordt teruggebracht tot het sub-seconde bereik. Bijvoorbeeld, op BridgeData V2 vermindert het de stapsgewijze latentie van 8,377 s met ECoT naar 0,367 s, wat een 22,8 keer versnelling oplevert.

English

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.