VLA Ricorsivo in Profondità: Scalabilità Implicita del Calcolo al Tempo di Test nei Modelli Visione-Linguaggio-Azione tramite Ragionamento Iterativo Latente

Abstract

Gli attuali modelli Vision-Language-Action (VLA) si basano su una profondità computazionale fissa, impiegando la stessa quantità di calcolo sia per semplici aggiustamenti che per manipolazioni complesse multi-step. Sebbene il prompting a catena del pensiero (Chain-of-Thought, CoT) consenta una computazione variabile, esso scala la memoria linearmente e non è adatto per spazi d'azione continui. Introduciamo RD-VLA (Recurrent-Depth VLA), un'architettura che raggiunge l'adattività computazionale tramite un raffinamento iterativo latente piuttosto che una generazione esplicita di token. RD-VLA impiega un testina d'azione ricorrente e a pesi condivisi che supporta una profondità di inferenza arbitraria con un'impronta di memoria costante. Il modello è addestrato utilizzando la retropropagazione attraverso il tempo troncata (TBPTT) per supervisionare efficientemente il processo di raffinamento. Durante l'inferenza, RD-VLA alloca dinamicamente il calcolo utilizzando un criterio di arresto adattivo basato sulla convergenza latente. Esperimenti su compiti di manipolazione complessi mostrano che la profondità ricorrente è cruciale: compiti che falliscono completamente (0% di successo) con un'inferenza a singola iterazione superano il 90% di successo con quattro iterazioni, mentre compiti più semplici saturano rapidamente. RD-VLA fornisce un percorso scalabile per il calcolo al momento del test nella robotica, sostituendo il ragionamento basato su token con un ragionamento latente per ottenere un uso della memoria costante e un'accelerazione dell'inferenza fino a 80 volte rispetto ai precedenti modelli VLA basati sul ragionamento. Pagina del progetto: https://rd-vla.github.io/

English

Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/

VLA Ricorsivo in Profondità: Scalabilità Implicita del Calcolo al Tempo di Test nei Modelli Visione-Linguaggio-Azione tramite Ragionamento Iterativo Latente

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Abstract

Support