Wiederkehrende Tiefen-VLA: Implizite Skalierung der Testzeit-Berechnung von Vision-Sprache-Handlungs-Modellen durch latentes iteratives Schließen

papers.abstract

Aktuelle Vision-Language-Action (VLA)-Modelle arbeiten mit einer festen Rechentiefe und verwenden die gleiche Rechenleistung für einfache Anpassungen wie für komplexe Mehrschritt-Manipulationen. Während Chain-of-Thought (CoT)-Prompting variable Berechnungen ermöglicht, skaliert es den Speicherbedarf linear und ist für kontinuierliche Aktionsräume ungeeignet. Wir stellen Recurrent-Depth VLA (RD-VLA) vor, eine Architektur, die Rechenanpassungsfähigkeit durch latente iterative Verfeinerung anstelle expliziter Token-Erzeugung erreicht. RD-VLA verwendet einen rekurrenten, gewichtsgebundenen Aktionskopf, der beliebige Inferenztiefen mit konstantem Speicherbedarf unterstützt. Das Modell wird mit truncated Backpropagation Through Time (TBPTT) trainiert, um den Verfeinerungsprozess effizient zu überwachen. Bei der Inferenz weist RD-VLA Rechenleistung dynamisch mittels eines adaptiven Stoppkriteriums basierend auf latenter Konvergenz zu. Experimente mit anspruchsvollen Manipulationsaufgaben zeigen, dass rekurrente Tiefe entscheidend ist: Aufgaben, die bei Einzeliteration-Inferenz vollständig scheitern (0 % Erfolgsrate), erreichen mit vier Iterationen über 90 % Erfolgsrate, während einfachere Aufgaben schnell sättigen. RD-VLA bietet einen skalierbaren Weg zur Testzeit-Rechenleistung in der Robotik, ersetzt token-basiertes Reasoning durch latentes Reasoning und erreicht damit konstanten Speicherverbrauch und bis zu 80-fache Beschleunigung der Inferenz gegenüber früheren reasoning-basierten VLA-Modellen. Projektseite: https://rd-vla.github.io/

English

Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/

Wiederkehrende Tiefen-VLA: Implizite Skalierung der Testzeit-Berechnung von Vision-Sprache-Handlungs-Modellen durch latentes iteratives Schließen

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

papers.abstract

Support