Muestreo en Tiempo de Prueba sin Verificador para Modelos de Visión, Lenguaje y Acción
Verifier-free Test-Time Sampling for Vision Language Action Models
October 7, 2025
Autores: Suhyeok Jang, Dongyoung Kim, Changyeon Kim, Youngsuk Kim, Jinwoo Shin
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLAs) han demostrado un rendimiento notable en el control de robots. Sin embargo, siguen siendo fundamentalmente limitados en tareas que requieren alta precisión debido a su paradigma de inferencia única. Aunque los enfoques de escalado en tiempo de prueba que utilizan verificadores externos han mostrado resultados prometedores, requieren entrenamiento adicional y no logran generalizar a condiciones no vistas. Proponemos Selección Guiada por Distribución de Enmascaramiento (MG-Select), un novedoso marco de escalado en tiempo de prueba para VLAs que aprovecha las propiedades internas del modelo sin requerir entrenamiento adicional ni módulos externos. Nuestro enfoque utiliza la divergencia KL de una distribución de referencia de tokens de acción como métrica de confianza para seleccionar la acción óptima entre múltiples candidatos. Introducimos una distribución de referencia generada por el mismo VLA pero con estados y condiciones de lenguaje enmascarados aleatoriamente como entradas, asegurando la máxima incertidumbre mientras se mantiene alineada con la distribución de la tarea objetivo. Además, proponemos una estrategia de entrenamiento conjunto que permite al modelo aprender tanto distribuciones condicionales como incondicionales aplicando dropout a las condiciones de estado y lenguaje, mejorando así aún más la calidad de la distribución de referencia. Nuestros experimentos demuestran que MG-Select logra mejoras significativas en el rendimiento, incluyendo un 28%/35% de mejora en tareas del mundo real dentro de la distribución/fuera de la distribución, junto con una ganancia relativa del 168% en tareas de recoger y colocar de RoboCasa entrenadas con 30 demostraciones.
English
Vision-Language-Action models (VLAs) have demonstrated remarkable performance
in robot control. However, they remain fundamentally limited in tasks that
require high precision due to their single-inference paradigm. While test-time
scaling approaches using external verifiers have shown promise, they require
additional training and fail to generalize to unseen conditions. We propose
Masking Distribution Guided Selection (MG-Select), a novel test-time scaling
framework for VLAs that leverages the model's internal properties without
requiring additional training or external modules. Our approach utilizes KL
divergence from a reference action token distribution as a confidence metric
for selecting the optimal action from multiple candidates. We introduce a
reference distribution generated by the same VLA but with randomly masked
states and language conditions as inputs, ensuring maximum uncertainty while
remaining aligned with the target task distribution. Additionally, we propose a
joint training strategy that enables the model to learn both conditional and
unconditional distributions by applying dropout to state and language
conditions, thereby further improving the quality of the reference
distribution. Our experiments demonstrate that MG-Select achieves significant
performance improvements, including a 28%/35% improvement in real-world
in-distribution/out-of-distribution tasks, along with a 168% relative gain on
RoboCasa pick-and-place tasks trained with 30 demonstrations.