SCALE: Observação e Execução Adaptativas Condicionadas à Autoincerteza para Modelos de Visão-Linguagem-Ação

Resumo

Os modelos Visão-Linguagem-Ação (VLA) surgiram como um paradigma promissor para o controle robótico de propósito geral, com a escalagem em tempo de teste (TTS) a ganhar atenção para melhorar a robustez para além do treino. No entanto, os métodos TTS existentes para VLAs requerem treino adicional, verificadores e múltiplas passagens diretas, tornando-os impraticáveis para implantação. Além disso, eles intervêm apenas na descodificação da ação, mantendo as representações visuais fixas – uma abordagem insuficiente sob ambiguidade perceptual, onde reconsiderar como perceber é tão importante quanto decidir o que fazer. Para superar estas limitações, propomos o SCALE, uma estratégia de inferência simples que modula conjuntamente a perceção visual e a ação com base na "autoincerteza", inspirada na exploração orientada pela incerteza na teoria da Inferência Ativa – sem exigir treino adicional, sem verificador e apenas uma única passagem direta. O SCALE amplia a exploração tanto na perceção como na ação sob alta incerteza, enquanto se concentra na exploração quando confiante – permitindo uma execução adaptativa em diversas condições. Experiências em *benchmarks* simulados e do mundo real demonstram que o SCALE melhora os VLAs de última geração e supera os métodos TTS existentes, mantendo a eficiência de passagem única.

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.

SCALE: Observação e Execução Adaptativas Condicionadas à Autoincerteza para Modelos de Visão-Linguagem-Ação

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Resumo

Support