SCALE: Adattamento Condizionato dall'Incertezza nell'Osservazione e nell'Esecuzione per Modelli Visione-Linguaggio-Azione

Abstract

I modelli Vision-Language-Action (VLA) sono emersi come un paradigma promettente per il controllo robotico generico, con lo scaling al momento del test (TTS) che sta guadagnando attenzione per migliorare la robustezza oltre l'addestramento. Tuttavia, i metodi TTS esistenti per i VLA richiedono ulteriore addestramento, verificatori e passaggi in avanti multipli, rendendoli impraticabili per il dispiegamento. Inoltre, essi intervengono solo durante la decodifica delle azioni, mantenendo fisse le rappresentazioni visive, il che è insufficiente in caso di ambiguità percettiva, dove riconsiderare come percepire è importante tanto quanto decidere cosa fare. Per affrontare queste limitazioni, proponiamo SCALE, una semplice strategia di inferenza che modula congiuntamente la percezione visiva e l'azione basandosi sull'auto-incertezza, ispirata dall'esplorazione guidata dall'incertezza nella teoria dell'Active Inference. SCALE non richiede addestramento aggiuntivo, nessun verificatore e solo un singolo passaggio in avanti. SCALE amplia l'esplorazione sia nella percezione che nell'azione in condizioni di alta incertezza, mentre si concentra sullo sfruttamento quando si è confidenti, consentendo un'esecuzione adattiva in varie condizioni. Esperimenti su benchmark simulati e del mondo reale dimostrano che SCALE migliora i VLA allo stato dell'arte e supera i metodi TTS esistenti mantenendo l'efficienza del singolo passaggio.

English

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.

SCALE: Adattamento Condizionato dall'Incertezza nell'Osservazione e nell'Esecuzione per Modelli Visione-Linguaggio-Azione

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Abstract

Support