ChatPaper.aiChatPaper

SCALE: Selbstunsicherheits-konditioniertes adaptives Schauen und Ausführen für Sprach-Bild-Handlungs-Modelle

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

February 4, 2026
papers.authors: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Modelle haben sich als vielversprechendes Paradigma für universelle Robotersteuerung etabliert, wobei Test-Time Scaling (TTS) zunehmend an Bedeutung gewinnt, um die Robustheit über das Training hinaus zu verbessern. Bisherige TTS-Methoden für VLAs erfordern jedoch zusätzliches Training, Verifizierer und mehrere Vorwärtspässe, was ihren praktischen Einsatz erschwert. Darüber hinaus greifen sie nur bei der Aktionsdekodierung ein, während die visuellen Repräsentationen unverändert bleiben – ein unzureichender Ansatz bei perzeptueller Ambiguität, bei der eine Neubewertung der Wahrnehmung ebenso wichtig ist wie die Entscheidung über die nächste Aktion. Um diese Einschränkungen zu überwinden, schlagen wir SCALE vor, eine einfache Inferenzstrategie, die visuelle Wahrnehmung und Aktion gemeinsam auf Basis von "Selbst-Unsicherheit" moduliert. Inspiriert von unsicherheitsgetriebener Exploration in der Active Inference-Theorie, benötigt SCALE weder zusätzliches Training noch einen Verifizierer und kommt mit nur einem einzigen Vorwärtspass aus. SCALE erweitert die Exploration in Wahrnehmung und Aktion bei hoher Unsicherheit, konzentriert sich jedoch auf Exploitation bei hoher Konfidenz – was eine adaptive Ausführung unter variierenden Bedingungen ermöglicht. Experimente mit simulierten und realen Benchmarks zeigen, dass SCALE state-of-the-art VLA-Modelle verbessert und bestehende TTS-Methoden übertrifft, bei gleichzeitiger Beibehaltung der Ein-Pass-Effizienz.
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.
PDF171February 12, 2026