SCALE: Адаптивное наблюдение и выполнение действий, обусловленное собственной неопределенностью, для моделей «зрение-язык-действие»
SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models
February 4, 2026
Авторы: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
cs.AI
Аннотация
Модели Vision-Language-Action (VLA) стали перспективной парадигмой для роботизированного управления общего назначения, при этом масштабирование во время тестирования (TTS) привлекает внимание для повышения устойчивости за пределами обучения. Однако существующие методы TTS для VLA требуют дополнительного обучения, верификаторов и множественных прямых проходов, что делает их непрактичными для развертывания. Более того, они вмешиваются только на этапе декодирования действий, оставляя визуальные представления фиксированными, что недостаточно в условиях перцептивной неоднозначности, где переосмысление того, как воспринимать, так же важно, как и решение о действии. Чтобы устранить эти ограничения, мы предлагаем SCALE — простую стратегию вывода, которая совместно модулирует визуальное восприятие и действие на основе «собственной неопределенности», вдохновленную исследованием, управляемым неопределенностью, в теории активного вывода — не требующую дополнительного обучения, верификатора и всего одного прямого прохода. SCALE расширяет исследование как в восприятии, так и в действии при высокой неопределенности, одновременно фокусируясь на эксплуатации при уверенности, что позволяет адаптивно выполнять задачи в различных условиях. Эксперименты на симулированных и реальных бенчмарках демонстрируют, что SCALE улучшает передовые VLA-модели и превосходит существующие методы TTS, сохраняя эффективность однопроходного выполнения.
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.