VisualThink-VLA : Raisonnement intermédiaire visuel pour des politiques Vision-Langage-Action efficaces et à faible latence

Résumé

Des travaux récents ont commencé à doter les politiques vision-langage-action (VLA) d’un raisonnement intermédiaire explicite. Cependant, dans le contrôle incarné, la chaîne de pensée textuelle est mal adaptée : des informations non pertinentes ou faiblement textuelles peuvent interférer avec la prédiction d’action, tandis que le décodage autorégressif de texte ajoute une latence trop importante pour une exécution en boucle fermée en temps réel. Nous présentons VISUALTHINK-VLA, un cadre de raisonnement intermédiaire visuel pour des politiques VLA précises et à faible latence. Notre philosophie d’amorçage consiste à guider l’action par une pensée visuelle efficace : VISUALTHINK-VLA amorce la prédiction d’action via une interface compacte de preuve visuelle qui préserve la précision spatiale tout en évitant le surcoût de décodage. De plus, pour améliorer davantage les performances et l’efficacité, VISUALTHINK-VLA adopte un mécanisme de routage sélectif sur mesure pour apprendre les jetons de preuve visuelle, permettant une inférence à faible latence tout en conservant une spécialisation à haute capacité. Nous introduisons également VisualEvidence-Kit, une ressource de supervision et d’audit centrée sur un VisualEvidence-Agent qui construit un VisualEvidence-Set de 754,7k instructions VLA pour la supervision des routes et des tests de fidélité contrefactuelle. Sur plusieurs benchmarks et évaluations robotiques réelles, VISUALTHINK-VLA atteint le taux de succès le plus élevé sur la plupart des benchmarks tout en réduisant la latence de plusieurs secondes des bases de raisonnement augmenté au régime sub-secondaire. Par exemple, sur BridgeData V2, il réduit la latence par étape de 8,377 s avec ECoT à 0,367 s, réalisant une accélération de 22,8 fois.

English

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.