VisualThink-VLA: Razonamiento Intermedio Visual para Políticas de Visión-Lenguaje-Acción Eficaces y de Baja Latencia

Resumen

Trabajos recientes han comenzado a equipar las políticas de visión-lenguaje-acción (VLA) con razonamiento intermedio explícito. Sin embargo, en el control encarnado, la cadena de pensamiento textual es una adaptación deficiente: la información irrelevante o débilmente textual puede interferir con la predicción de acciones, mientras que la decodificación textual autorregresiva añade demasiada latencia para la ejecución en bucle cerrado en tiempo real. Presentamos VISUALTHINK-VLA, un marco de razonamiento intermedio visual para políticas VLA precisas y de baja latencia. Nuestra filosofía de inicialización es guiar la acción con un pensamiento visual efectivo: VISUALTHINK-VLA inicia la predicción de acciones mediante una interfaz compacta de evidencia visual que preserva la precisión espacial evitando la sobrecarga de decodificación. Además, para mejorar aún más el rendimiento y la eficiencia, VISUALTHINK-VLA adopta un mecanismo de enrutamiento selectivo adaptado para aprender los tokens de evidencia visual, lo que permite una inferencia de baja latencia mientras mantiene una especialización de alta capacidad. También presentamos VisualEvidence-Kit, un recurso de supervisión y auditoría centrado en un VisualEvidence-Agent que construye un conjunto de 754.7k instrucciones VLA, VisualEvidence-Set, para la supervisión de rutas y pruebas de fidelidad contrafactual. A través de múltiples puntos de referencia y evaluaciones robóticas reales, VISUALTHINK-VLA logra la tasa de éxito más alta en la mayoría de los puntos de referencia, al tiempo que reduce la latencia de varios segundos de las líneas base aumentadas con razonamiento al régimen de submilisegundos. Por ejemplo, en BridgeData V2, reduce la latencia por paso de 8.377 s con ECoT a 0.367 s, logrando una aceleración de 22.8 veces.

English

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.