ChatPaper.aiChatPaper

SCALE: 시각-언어-행동 모델을 위한 자기 불확실성 기반 적응형 관찰 및 실행

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

February 4, 2026
저자: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
cs.AI

초록

비전-언어-행동(VLA) 모델은 범용 로봇 제어를 위한 유망한 패러다임으로 부상했으며, 훈련 이상의 강인성을 향상시키기 위한 테스트 타임 스케일링(TTS)이 주목받고 있다. 그러나 기존 VLA용 TTS 방법은 추가 훈련, 검증기, 다중 순전파 패스를 필요로 하여 실제 배포에 비실용적이다. 또한 이들은 시각 표현을 고정한 채 행동 디코딩 시점에만 개입하는데, 인지적 모호성 하에서는 어떻게 인지할지 재고하는 것이 무엇을 할지 결정하는 것만큼 중요하므로 이는 불충분하다. 이러한 한계를 해결하기 위해 우리는 추가 훈련이나 검증기 없이 단일 순전파만으로 실행 가능한 'SCALE'을 제안한다. 능동 추론 이론의 불확실성 주도 탐색에서 영감을 받은 SCALE은 '자기-불확실성'을 기반으로 시각 인지와 행동을 공동으로 조절한다. SCALE은 높은 불확실성 하에서 인지와 행동 모두에서 탐색 범위를 확대하고, 확신할 때는 활용에 집중함으로써 다양한 조건에 걸친 적응형 실행을 가능하게 한다. 시뮬레이션 및 실제 환경 벤치마크 실험을 통해 SCALE이 최첨단 VLA 모델을 개선하고 기존 TTS 방법을 능가하는 동시에 단일 패스 효율성을 유지함을 입증하였다.
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.
PDF171February 12, 2026