Recurrent-Depth VLA: Impliciete Schaling van Rekenkracht tijdens Testen bij Vision-Language-Action Modellen via Latente Iteratieve Redenering

Samenvatting

Huidige Vision-Language-Action (VLA)-modellen vertrouwen op een vaste computationele diepte, waarbij ze dezelfde rekenkracht inzetten voor zowel eenvoudige aanpassingen als complexe, meerstaps manipulaties. Hoewel Chain-of-Thought (CoT)-prompting variabele rekenkracht mogelijk maakt, schaalt het het geheugengebruik lineair en is het ongeschikt voor continue actieruimten. Wij introduceren Recurrent-Depth VLA (RD-VLA), een architectuur die computationele adaptiviteit bereikt via latente iteratieve verfijning in plaats van expliciete token-generatie. RD-VLA gebruikt een recurrent, gewichtsgebonden actiehoofd dat willekeurige inferentiediepte ondersteunt met een constant geheugenverbruik. Het model wordt getraind met *truncated backpropagation through time* (TBPTT) om het verfijningsproces efficiënt te superviseren. Tijdens inferentie wijst RD-VLA rekenkracht dynamisch toe met behulp van een adaptief stopcriterium gebaseerd op latente convergentie. Experimenten met uitdagende manipulatietaken tonen aan dat recurrentie diepte cruciaal is: taken die volledig falen (0% succes) bij inferentie met één iteratie behalen meer dan 90% succes na vier iteraties, terwijl eenvoudigere taken snel verzadigen. RD-VLA biedt een schaalbaar pad naar *test-time compute* in de robotica, door op tokens gebaseerd redeneren te vervangen door latent redeneren, wat resulteert in constant geheugengebruik en een versnelling van de inferentie tot 80x ten opzichte van eerdere op redeneren gebaseerde VLA-modellen. Projectpagina: https://rd-vla.github.io/

English

Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/

Recurrent-Depth VLA: Impliciete Schaling van Rekenkracht tijdens Testen bij Vision-Language-Action Modellen via Latente Iteratieve Redenering

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Samenvatting

Support