VisualThink-VLA: Визуальное промежуточное рассуждение для эффективных и низкозадержных политик «зрение-язык-действие»

Аннотация

Недавние исследования начали оснащать политики типа "зрение-язык-действие" (VLA) явным промежуточным рассуждением. Однако в контексте воплощенного управления текстовые цепочки рассуждений (chain-of-thought) плохо применимы: нерелевантная или слабо связанная с текстом информация может мешать предсказанию действий, а авторегрессивное декодирование текста вносит слишком большую задержку для выполнения в реальном времени в замкнутом контуре. Мы представляем VISUALTHINK-VLA — фреймворк визуального промежуточного рассуждения для точных и малозадержковых политик VLA. Наша философия начальной загрузки (bootstrapping) заключается в направлении действий с помощью эффективного визуального мышления: VISUALTHINK-VLA инициализирует предсказание действий через компактный интерфейс визуальных свидетельств, который сохраняет пространственную точность, избегая накладных расходов на декодирование. Кроме того, для дальнейшего повышения производительности и эффективности VISUALTHINK-VLA использует специальный механизм селективной маршрутизации для изучения токенов визуальных свидетельств, что обеспечивает низкозадержковый вывод при сохранении высокой специализации. Мы также представляем VisualEvidence-Kit — ресурс для контроля и аудита, центральным элементом которого является VisualEvidence-Agent, создающий набор VisualEvidence-Set из 754,7 тыс. инструкций VLA для супервизии маршрутов и тестов на контрфактическую достоверность. На нескольких бенчмарках и в оценках на реальных роботах VISUALTHINK-VLA достигает наивысшего показателя успешности на большинстве бенчмарков, сокращая многосекундную задержку базовых методов с усиленным рассуждением до субсекундного диапазона. Например, на BridgeData V2 задержка на шаг снижается с 8,377 с в ECoT до 0,367 с, что обеспечивает ускорение в 22,8 раза.

English

Recent work has begun to equip vision-language-action (VLA) policies with explicit intermediate reasoning. In embodied control, however, textual chain-of-thought is a poor fit: irrelevant or weakly textual information can interfere with action prediction, while autoregressive text decoding adds too much latency for real-time closed-loop execution. We present VISUALTHINK-VLA, a visual intermediate-reasoning framework for accurate, low-latency VLA policies. Our bootstrapping philosophy is to guide action with effective visual thinking: VISUALTHINK-VLA bootstraps action prediction through a compact visual-evidence interface that preserves spatial precision while avoiding decoding overhead. Besides, to further improve performance and efficiency, VISUALTHINK-VLA adopts a tailored selective routing mechanism to learn the visual evidence tokens, enabling low-latency inference while preserving high-capacity specialization. We also introduce VisualEvidence-Kit, a supervision-and-audit resource centered on a VisualEvidence-Agent that constructs a 754.7k VLA instructions VisualEvidence-Set for route supervision and counterfactual faithfulness tests. Across multiple benchmarks and real-robot evaluation, VISUALTHINK-VLA achieves the highest success rate on most benchmarks while reducing the multi-second latency of reasoning-augmented baselines to the sub-second regime. For example, on BridgeData V2, it reduces step latency from 8.377,s with ECoT to 0.367,s, achieving a 22.8 times speedup.