VLA Recorrente-Profundo: Escalonamento Implícito de Computação em Tempo de Teste de Modelos Visão-Linguagem-Ação via Raciocínio Iterativo Latente

Resumo

Os modelos atuais de Visão-Linguagem-Ação (VLA) dependem de uma profundidade computacional fixa, aplicando a mesma quantidade de processamento tanto para ajustes simples quanto para manipulações complexas de múltiplas etapas. Embora o *prompting* de Cadeia de Pensamento (CoT) permita computação variável, ele escala a memória linearmente e é inadequado para espaços de ação contínuos. Apresentamos o VLA com Profundidade Recorrente (RD-VLA), uma arquitetura que alcança adaptabilidade computacional por meio de refinamento iterativo latente, em vez de geração explícita de *tokens*. O RD-VLA emprega um cabeçalho de ação recorrente e com pesos compartilhados, que suporta profundidade de inferência arbitrária com uma pegada de memória constante. O modelo é treinado usando retropropagação através do tempo truncada (TBPTT) para supervisionar eficientemente o processo de refinamento. Na inferência, o RD-VLA aloca dinamicamente o processamento usando um critério de parada adaptativo baseado na convergência latente. Experimentos em tarefas de manipulação desafiadoras mostram que a profundidade recorrente é crítica: tarefas que falham completamente (0% de sucesso) com inferência de iteração única excedem 90% de sucesso com quatro iterações, enquanto tarefas mais simples saturam rapidamente. O RD-VLA fornece um caminho escalável para processamento em tempo de teste em robótica, substituindo o raciocínio baseado em *tokens* por raciocínio latente para alcançar uso de memória constante e aceleração de inferência de até 80x em relação aos modelos VLA anteriores baseados em raciocínio. Página do projeto: https://rd-vla.github.io/

English

Current Vision-Language-Action (VLA) models rely on fixed computational depth, expending the same amount of compute on simple adjustments and complex multi-step manipulation. While Chain-of-Thought (CoT) prompting enables variable computation, it scales memory linearly and is ill-suited for continuous action spaces. We introduce Recurrent-Depth VLA (RD-VLA), an architecture that achieves computational adaptivity via latent iterative refinement rather than explicit token generation. RD-VLA employs a recurrent, weight-tied action head that supports arbitrary inference depth with a constant memory footprint. The model is trained using truncated backpropagation through time (TBPTT) to efficiently supervise the refinement process. At inference, RD-VLA dynamically allocates compute using an adaptive stopping criterion based on latent convergence. Experiments on challenging manipulation tasks show that recurrent depth is critical: tasks that fail entirely (0 percent success) with single-iteration inference exceed 90 percent success with four iterations, while simpler tasks saturate rapidly. RD-VLA provides a scalable path to test-time compute in robotics, replacing token-based reasoning with latent reasoning to achieve constant memory usage and up to 80x inference speedup over prior reasoning-based VLA models. Project page: https://rd-vla.github.io/

VLA Recorrente-Profundo: Escalonamento Implícito de Computação em Tempo de Teste de Modelos Visão-Linguagem-Ação via Raciocínio Iterativo Latente

Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning

Resumo

Support