SCALE: Zelfonzekerheid-Geconditioneerd Adaptief Kijken en Uitvoeren voor Visie-Taal-Actie-Modellen

Samenvatting

Vision-Language-Action (VLA)-modellen zijn naar voren gekomen als een veelbelovend paradigma voor algemene robotbesturing, waarbij test-time scaling (TTS) aandacht krijgt om de robuustheid voorbij de trainingsfase te verbeteren. Bestaande TTS-methoden voor VLA's vereisen echter aanvullende training, verificatoren en meerdere voorwaartse passes, wat ze onpraktisch maakt voor implementatie. Bovendien grijpen ze alleen in bij actiedecodering, terwijl visuele representaties onveranderd blijven – onvoldoende bij perceptuele ambiguïteit, waar heroverweging van de perceptie even belangrijk is als de beslissing over de actie. Om deze beperkingen aan te pakken, stellen we SCALE voor, een eenvoudige inferentiestrategie die visuele perceptie en actie gezamenlijk moduleert op basis van 'zelf-onzekerheid', geïnspireerd door onzekerheidsgedreven exploratie in de Active Inference-theorie. SCALE vereist geen extra training, geen verificator en slechts één voorwaartse pass. SCALE verbreedt de exploratie in zowel perceptie als actie bij hoge onzekerheid, terwijl het focust op exploitatie bij vertrouwen – wat adaptieve uitvoering in uiteenlopende omstandigheden mogelijk maakt. Experimenten op gesimuleerde en real-world benchmarks tonen aan dat SCALE state-of-the-art VLA's verbetert en beter presteert dan bestaande TTS-methoden, terwijl de efficiëntie van een enkele pass behouden blijft.

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.

SCALE: Zelfonzekerheid-Geconditioneerd Adaptief Kijken en Uitvoeren voor Visie-Taal-Actie-Modellen

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Samenvatting

Support