VisualThink-VLA: Raciocínio Intermediário Visual para Políticas Visão-Linguagem-Ação Eficazes e de Baixa Latência

Resumo

Trabalhos recentes começaram a equipar políticas de visão-linguagem-ação (VLA) com raciocínio intermediário explícito. No entanto, no controle incorporado, a cadeia de pensamento textual é inadequada: informações irrelevantes ou fracamente textuais podem interferir na previsão de ações, enquanto a decodificação textual autorregressiva adiciona latência excessiva para execução em malha fechada em tempo real. Apresentamos o VISUALTHINK-VLA, uma estrutura de raciocínio intermediário visual para políticas VLA precisas e de baixa latência. Nossa filosofia de bootstrapping é guiar a ação com pensamento visual eficaz: o VISUALTHINK-VLA inicializa a previsão de ações por meio de uma interface compacta de evidência visual que preserva a precisão espacial enquanto evita a sobrecarga de decodificação. Além disso, para melhorar ainda mais o desempenho e a eficiência, o VISUALTHINK-VLA adota um mecanismo de roteamento seletivo personalizado para aprender os tokens de evidência visual, permitindo inferência de baixa latência enquanto preserva a especialização de alta capacidade. Também apresentamos o VisualEvidence-Kit, um recurso de supervisão e auditoria centrado em um VisualEvidence-Agent que constrói um VisualEvidence-Set com 754,7 mil instruções VLA para supervisão de rota e testes de fidelidade contrafactual. Em vários benchmarks e avaliação com robô real, o VISUALTHINK-VLA atinge a maior taxa de sucesso na maioria dos benchmarks, reduzindo a latência de vários segundos das linhas de base aumentadas com raciocínio para o regime de submilissegundos. Por exemplo, no BridgeData V2, reduz a latência por etapa de 8,377 s com o ECoT para 0,367 s, alcançando uma aceleração de 22,8 vezes.

English

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.