Recurrent-Depth VLA: Неявное масштабирование вычислений во время тестирования моделей "зрение-язык-действие" с помощью латентного итеративного рассуждения

Аннотация

Современные модели "Vision-Language-Action" (VLA) используют фиксированную вычислительную глубину, затрачивая одинаковые ресурсы на простые корректировки и сложные многоэтапные манипуляции. Хотя метод Chain-of-Thought (CoT) позволяет варьировать вычисления, он требует линейного роста памяти и плохо подходит для непрерывных пространств действий. Мы представляем рекуррентную VLA-архитектуру с переменной глубиной (RD-VLA), которая обеспечивает вычислительную адаптивность за счет латентной итеративной оптимизации вместо явной генерации токенов. RD-VLA использует рекуррентный, весосвязанный модуль действий, поддерживающий произвольную глубину вывода при постоянном объеме памяти. Модель обучается методом обратного распространения ошибки через время с усечением (TBPTT) для эффективного управления процессом уточнения. На этапе вывода RD-VLA динамически распределяет вычисления с помощью адаптивного критерия остановки на основе латентной сходимости. Эксперименты на сложных задачах манипуляции демонстрируют критическую важность рекуррентной глубины: задачи, которые полностью проваливаются (0% успеха) при одноитерационном выводе, достигают более 90% успеха после четырех итераций, тогда как простые задачи быстро насыщаются. RD-VLA предлагает масштабируемый подход к управлению вычислительными затратами в робототехнике, заменяя токенизированные рассуждения латентными для достижения постоянного расхода памяти и ускорения вывода до 80 раз по сравнению с предыдущими VLA-моделями на основе рассуждений. Страница проекта: https://rd-vla.github.io/

English

Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/

Recurrent-Depth VLA: Неявное масштабирование вычислений во время тестирования моделей "зрение-язык-действие" с помощью латентного итеративного рассуждения

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Аннотация

Support