ChatPaper.aiChatPaper

SCALE: Búsqueda y Ejecución Adaptativa Condicionada por Autoincertidumbre para Modelos Visión-Lenguaje-Acción

SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

February 4, 2026
Autores: Hyeonbeom Choi, Daechul Ahn, Youhan Lee, Taewook Kang, Seongwon Cho, Jonghyun Choi
cs.AI

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) han surgido como un paradigma prometedor para el control robótico de propósito general, atrayendo atención la escalado en tiempo de prueba (TTS) para mejorar la robustez más allá del entrenamiento. Sin embargo, los métodos TTS existentes para VLAs requieren entrenamiento adicional, verificadores y múltiples pasadas hacia adelante, lo que los hace impracticables para su despliegue. Además, intervienen solo en la decodificación de acciones manteniendo las representaciones visuales fijas, lo cual es insuficiente bajo ambigüedad perceptual, donde reconsiderar cómo percibir es tan importante como decidir qué hacer. Para abordar estas limitaciones, proponemos SCALE, una estrategia de inferencia simple que modula conjuntamente la percepción visual y la acción basándose en la "auto-incertidumbre", inspirada en la exploración impulsada por la incertidumbre en la teoría de Inferencia Activa. SCALE no requiere entrenamiento adicional, ni verificador, y solo una única pasada hacia adelante. SCALE amplía la exploración tanto en percepción como en acción bajo alta incertidumbre, mientras se centra en la explotación cuando hay confianza, permitiendo una ejecución adaptable en diversas condiciones. Los experimentos en benchmarks de simulación y del mundo real demuestran que SCALE mejora los VLAs de vanguardia y supera a los métodos TTS existentes, manteniendo la eficiencia de pasada única.
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on 'self-uncertainty', inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.
PDF171February 12, 2026