VLA à Profondeur Récurrente : Mise à l'Échelle Implicite du Calcul en Phase de Test des Modèles Vision-Langage-Action par Raisonnement Itératif Latent
Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning
February 8, 2026
papers.authors: Yalcin Tur, Jalal Naghiyev, Haoquan Fang, Wei-Chuan Tsai, Jiafei Duan, Dieter Fox, Ranjay Krishna
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) actuels reposent sur une profondeur de calcul fixe, consacrant la même quantité de calcul pour des ajustements simples que pour des manipulations complexes en plusieurs étapes. Bien que l'incitation en chaîne de pensée (CoT) permette un calcul variable, elle augmente la mémoire linéairement et est mal adaptée aux espaces d'action continus. Nous présentons RD-VLA (Recurrent-Depth VLA), une architecture qui atteint l'adaptativité computationnelle via un raffinement itératif latent plutôt qu'une génération explicite de tokens. RD-VLA utilise une tête d'action récurrente, à poids liés, qui supporte une profondeur d'inférence arbitraire avec une empreinte mémoire constante. Le modèle est entraîné en utilisant la rétropropagation tronquée dans le temps (TBPTT) pour superviser efficacement le processus de raffinement. Lors de l'inférence, RD-VLA alloue dynamiquement le calcul en utilisant un critère d'arrêt adaptatif basé sur la convergence latente. Les expériences sur des tâches de manipulation difficiles montrent que la profondeur récurrente est cruciale : les tâches qui échouent complètement (0% de succès) avec une inférence à itération unique dépassent 90% de succès avec quatre itérations, tandis que les tâches plus simples se saturent rapidement. RD-VLA offre une voie évolutive pour le calcul au moment des tests en robotique, remplaçant le raisonnement basé sur les tokens par un raisonnement latent pour atteindre une utilisation mémoire constante et une accélération de l'inférence allant jusqu'à 80x par rapport aux modèles VLA antérieurs basés sur le raisonnement. Page du projet : https://rd-vla.github.io/
English
Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/