ChatPaper.aiChatPaper

ÉCHELLE : Recherche et Exécution Adaptative Conditionnée par l'Incertitude de Soi pour les Modèles Vision-Langue-Action

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

February 4, 2026
papers.authors: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) sont apparus comme un paradigme prometteur pour le contrôle robotique généraliste, avec la mise à l'échelle au moment du test (TTS) qui gagne en attention pour améliorer la robustesse au-delà de l'entraînement. Cependant, les méthodes TTS existantes pour les VLA nécessitent un entraînement supplémentaire, des vérificateurs et de multiples passes avant, les rendant peu pratiques pour le déploiement. De plus, elles n'interviennent qu'au décodage des actions tout en gardant les représentations visuelles fixes – ce qui est insuffisant en cas d'ambiguïté perceptuelle, où reconsidérer comment percevoir est aussi important que de décider quoi faire. Pour résoudre ces limitations, nous proposons SCALE, une stratégie d'inférence simple qui module conjointement la perception visuelle et l'action sur la base de « l'auto-incertitude », inspirée par l'exploration guidée par l'incertitude dans la théorie de l'Inférence Active – sans nécessiter d'entraînement supplémentaire, ni vérificateur, et avec une seule passe avant. SCALE élargit l'exploration dans la perception et l'action en cas de forte incertitude, tout en se concentrant sur l'exploitation en situation de confiance, permettant une exécution adaptative à diverses conditions. Les expériences sur des benchmarks en simulation et en conditions réelles démontrent que SCALE améliore les VLA de l'état de l'art et surpasse les méthodes TTS existantes tout en conservant l'efficacité d'une seule passe.
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.
PDF171February 12, 2026