VLA de Profundidad Recurrente: Escalado Implícito de Cómputo en Tiempo de Prueba de Modelos de Visión-Lenguaje-Acción mediante Razonamiento Iterativo Latente

Resumen

Los modelos actuales de Visión-Lenguaje-Acción (VLA) dependen de una profundidad computacional fija, gastando la misma cantidad de cálculo en ajustes simples y en manipulaciones complejas de múltiples pasos. Si bien el prompting de Cadena de Pensamiento (CoT) permite un cálculo variable, escala la memoria linealmente y no es adecuado para espacios de acción continuos. Presentamos VLA de Profundidad Recurrente (RD-VLA), una arquitectura que logra adaptividad computacional mediante un refinamiento iterativo latente en lugar de una generación explícita de tokens. RD-VLA emplea un cabezal de acción recurrente y con pesos compartidos que soporta una profundidad de inferencia arbitraria con una huella de memoria constante. El modelo se entrena usando retropropagación a través del tiempo truncada (TBPTT) para supervisar eficientemente el proceso de refinamiento. Durante la inferencia, RD-VLA asigna cálculo dinámicamente usando un criterio de parada adaptativo basado en la convergencia latente. Los experimentos en tareas de manipulación desafiantes muestran que la profundidad recurrente es crítica: las tareas que fallan por completo (0 por ciento de éxito) con una inferencia de iteración única superan el 90 por ciento de éxito con cuatro iteraciones, mientras que las tareas más simples se saturan rápidamente. RD-VLA proporciona una vía escalable para el cálculo en tiempo de prueba en robótica, reemplazando el razonamiento basado en tokens con un razonamiento latente para lograr un uso de memoria constante y una aceleración de la inferencia de hasta 80x sobre modelos VLA previos basados en razonamiento. Página del proyecto: https://rd-vla.github.io/

English

Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/

VLA de Profundidad Recurrente: Escalado Implícito de Cómputo en Tiempo de Prueba de Modelos de Visión-Lenguaje-Acción mediante Razonamiento Iterativo Latente

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Resumen

Support