Échantillonnage en temps de test sans vérification pour les modèles vision-langage-action
Verifier-free Test-Time Sampling for Vision Language Action Models
October 7, 2025
papers.authors: Suhyeok Jang, Dongyoung Kim, Changyeon Kim, Youngsuk Kim, Jinwoo Shin
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) ont démontré des performances remarquables dans le contrôle des robots. Cependant, ils restent fondamentalement limités dans les tâches nécessitant une grande précision en raison de leur paradigme d'inférence unique. Bien que les approches de mise à l'échelle au moment du test utilisant des vérificateurs externes aient montré des résultats prometteurs, elles nécessitent un entraînement supplémentaire et échouent à généraliser à des conditions non vues. Nous proposons Masking Distribution Guided Selection (MG-Select), un nouveau cadre de mise à l'échelle au moment du test pour les VLA qui exploite les propriétés internes du modèle sans nécessiter d'entraînement supplémentaire ni de modules externes. Notre approche utilise la divergence de KL par rapport à une distribution de référence de tokens d'action comme métrique de confiance pour sélectionner l'action optimale parmi plusieurs candidats. Nous introduisons une distribution de référence générée par le même VLA mais avec des états et des conditions linguistiques masqués aléatoirement en entrée, garantissant une incertitude maximale tout en restant alignée avec la distribution de la tâche cible. De plus, nous proposons une stratégie d'entraînement conjointe qui permet au modèle d'apprendre à la fois les distributions conditionnelles et inconditionnelles en appliquant du dropout aux états et aux conditions linguistiques, améliorant ainsi davantage la qualité de la distribution de référence. Nos expériences démontrent que MG-Select permet des améliorations significatives des performances, notamment une amélioration de 28 %/35 % dans les tâches en distribution/ hors distribution du monde réel, ainsi qu'un gain relatif de 168 % sur les tâches de pick-and-place de RoboCasa entraînées avec 30 démonstrations.
English
Vision-Language-Action models (VLAs) have demonstrated remarkable performance
in robot control. However, they remain fundamentally limited in tasks that
require high precision due to their single-inference paradigm. While test-time
scaling approaches using external verifiers have shown promise, they require
additional training and fail to generalize to unseen conditions. We propose
Masking Distribution Guided Selection (MG-Select), a novel test-time scaling
framework for VLAs that leverages the model's internal properties without
requiring additional training or external modules. Our approach utilizes KL
divergence from a reference action token distribution as a confidence metric
for selecting the optimal action from multiple candidates. We introduce a
reference distribution generated by the same VLA but with randomly masked
states and language conditions as inputs, ensuring maximum uncertainty while
remaining aligned with the target task distribution. Additionally, we propose a
joint training strategy that enables the model to learn both conditional and
unconditional distributions by applying dropout to state and language
conditions, thereby further improving the quality of the reference
distribution. Our experiments demonstrate that MG-Select achieves significant
performance improvements, including a 28%/35% improvement in real-world
in-distribution/out-of-distribution tasks, along with a 168% relative gain on
RoboCasa pick-and-place tasks trained with 30 demonstrations.