VisualThink-VLA: Визуальное промежуточное рассуждение для эффективных и низкозадержных политик «зрение-язык-действие»
VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies
May 28, 2026
Авторы: Mingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang
cs.AI
Аннотация
Недавние исследования начали оснащать политики типа "зрение-язык-действие" (VLA) явным промежуточным рассуждением. Однако в контексте воплощенного управления текстовые цепочки рассуждений (chain-of-thought) плохо применимы: нерелевантная или слабо связанная с текстом информация может мешать предсказанию действий, а авторегрессивное декодирование текста вносит слишком большую задержку для выполнения в реальном времени в замкнутом контуре. Мы представляем VISUALTHINK-VLA — фреймворк визуального промежуточного рассуждения для точных и малозадержковых политик VLA. Наша философия начальной загрузки (bootstrapping) заключается в направлении действий с помощью эффективного визуального мышления: VISUALTHINK-VLA инициализирует предсказание действий через компактный интерфейс визуальных свидетельств, который сохраняет пространственную точность, избегая накладных расходов на декодирование. Кроме того, для дальнейшего повышения производительности и эффективности VISUALTHINK-VLA использует специальный механизм селективной маршрутизации для изучения токенов визуальных свидетельств, что обеспечивает низкозадержковый вывод при сохранении высокой специализации. Мы также представляем VisualEvidence-Kit — ресурс для контроля и аудита, центральным элементом которого является VisualEvidence-Agent, создающий набор VisualEvidence-Set из 754,7 тыс. инструкций VLA для супервизии маршрутов и тестов на контрфактическую достоверность. На нескольких бенчмарках и в оценках на реальных роботах VISUALTHINK-VLA достигает наивысшего показателя успешности на большинстве бенчмарков, сокращая многосекундную задержку базовых методов с усиленным рассуждением до субсекундного диапазона. Например, на BridgeData V2 задержка на шаг снижается с 8,377 с в ECoT до 0,367 с, что обеспечивает ускорение в 22,8 раза.
English
Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.