SCALE: 視覚言語行動モデルのための不確実性条件付き適応的注視と実行
SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models
February 4, 2026
著者: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
cs.AI
要旨
Vision-Language-Action(VLA)モデルは、汎用ロボット制御の有望なパラダイムとして登場し、ロバスト性を訓練範囲を超えて向上させる手法としてテスト時スケーリング(TTS)が注目を集めている。しかし、既存のVLA向けTTS手法は、追加の訓練、検証器、複数の順方向計算を必要とするため、実用展開が困難である。さらに、これらの手法は視覚表現を固定したまま行動デコーディング時のみに介入するため、知覚の曖昧性が生じる状況では不十分である。このような状況では、何をすべきかを決定することと同様に、どのように知覚すべきかを再考することが重要である。これらの課題を解決するため、本研究では「自己不確実性」に基づいて視覚知覚と行動を共同で調整する簡便な推論戦略SCALEを提案する。この手法は、能動的推論理論における不確実性駆動型探索に着想を得ており、追加の訓練や検証器を必要とせず、単一の順方向計算のみで動作する。SCALEは、不確実性が高い条件下では知覚と行動の両方における探索範囲を拡大し、確信度が高い場合には利用に集中するため、様々な条件下での適応的実行を可能とする。シミュレーションおよび実世界ベンチマークによる実験により、SCALEが最先端のVLAモデルを改善し、既存のTTS手法を上回りながら、単一パス効率を維持することを実証した。
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.