ChatPaper.aiChatPaper

순환-심층 VLA: 잠재 반복 추론을 통한 시각-언어-행동 모델의 암묵적 테스트 시간 계산 확장

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

February 8, 2026
저자: Yalcin Tur, Jalal Naghiyev, Haoquan Fang, Wei-Chuan Tsai, Jiafei Duan, Dieter Fox, Ranjay Krishna
cs.AI

초록

현재 비전-언어-행동(VLA) 모델은 고정된 계산 깊이에 의존하여 단순한 조정과 복잡한 다단계 조작에 동일한 양의 계산 자원을 소모합니다. 생각의 연쇄(CoT) 프롬프팅은 가변 계산을 가능하게 하지만 메모리 사용량이 선형적으로 증가하며 연속적인 행동 공간에는 적합하지 않습니다. 본 논문에서는 명시적 토큰 생성이 아닌 잠재적 반복 정제를 통해 계산 적응성을 달성하는 RD-VLA(Recurrent-Depth VLA) 아키텍처를 소개합니다. RD-VLA는 재귀적이며 가중치를 공유하는 행동 헤드를 사용하여 일정한 메모리 사용량으로 임의의 추론 깊이를 지원합니다. 이 모델은 시간에 따른 truncated backpropagation (TBPTT)을 사용하여 정제 과정을 효율적으로 지도 학습합니다. 추론 시 RD-VLA는 잠재 공간 수렴에 기반한 적응형 중단 기준을 사용하여 계산 자원을 동적으로 할당합니다. 도전적인 조작 작업에 대한 실험 결과, 재귀적 깊이가 결정적임을 확인했습니다: 단일 반복 추론으로는 완전히 실패(0% 성공률)하는 작업이 4회 반복 시 90%를 넘는 성공률을 보였으며, 더 단순한 작업은 빠르게 성능이 포화되었습니다. RD-VLA는 토큰 기반 추론을 잠재적 추론으로 대체하여 일정한 메모리 사용량과 기존 추론 기반 VLA 모델 대비 최대 80배의 추론 속도 향상을 달성함으로써 로보틱스 분야의 테스트 타임 계산 확장에 대한 확장 가능한 경로를 제공합니다. 프로젝트 페이지: https://rd-vla.github.io/
English
Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/
PDF642February 11, 2026