ChatPaper.aiChatPaper

Échantillonnage en temps de test sans vérification pour les modèles vision-langage-action

Verifier-free Test-Time Sampling for Vision Language Action Models

October 7, 2025
papers.authors: Suhyeok Jang, Dongyoung Kim, Changyeon Kim, Youngsuk Kim, Jinwoo Shin
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) ont démontré des performances remarquables dans le contrôle des robots. Cependant, ils restent fondamentalement limités dans les tâches nécessitant une grande précision en raison de leur paradigme d'inférence unique. Bien que les approches de mise à l'échelle au moment du test utilisant des vérificateurs externes aient montré des résultats prometteurs, elles nécessitent un entraînement supplémentaire et échouent à généraliser à des conditions non vues. Nous proposons Masking Distribution Guided Selection (MG-Select), un nouveau cadre de mise à l'échelle au moment du test pour les VLA qui exploite les propriétés internes du modèle sans nécessiter d'entraînement supplémentaire ni de modules externes. Notre approche utilise la divergence de KL par rapport à une distribution de référence de tokens d'action comme métrique de confiance pour sélectionner l'action optimale parmi plusieurs candidats. Nous introduisons une distribution de référence générée par le même VLA mais avec des états et des conditions linguistiques masqués aléatoirement en entrée, garantissant une incertitude maximale tout en restant alignée avec la distribution de la tâche cible. De plus, nous proposons une stratégie d'entraînement conjointe qui permet au modèle d'apprendre à la fois les distributions conditionnelles et inconditionnelles en appliquant du dropout aux états et aux conditions linguistiques, améliorant ainsi davantage la qualité de la distribution de référence. Nos expériences démontrent que MG-Select permet des améliorations significatives des performances, notamment une amélioration de 28 %/35 % dans les tâches en distribution/ hors distribution du monde réel, ainsi qu'un gain relatif de 168 % sur les tâches de pick-and-place de RoboCasa entraînées avec 30 démonstrations.
English
Vision-Language-Action models (VLAs) have demonstrated remarkable performance in robot control. However, they remain fundamentally limited in tasks that require high precision due to their single-inference paradigm. While test-time scaling approaches using external verifiers have shown promise, they require additional training and fail to generalize to unseen conditions. We propose Masking Distribution Guided Selection (MG-Select), a novel test-time scaling framework for VLAs that leverages the model's internal properties without requiring additional training or external modules. Our approach utilizes KL divergence from a reference action token distribution as a confidence metric for selecting the optimal action from multiple candidates. We introduce a reference distribution generated by the same VLA but with randomly masked states and language conditions as inputs, ensuring maximum uncertainty while remaining aligned with the target task distribution. Additionally, we propose a joint training strategy that enables the model to learn both conditional and unconditional distributions by applying dropout to state and language conditions, thereby further improving the quality of the reference distribution. Our experiments demonstrate that MG-Select achieves significant performance improvements, including a 28%/35% improvement in real-world in-distribution/out-of-distribution tasks, along with a 168% relative gain on RoboCasa pick-and-place tasks trained with 30 demonstrations.
PDF13October 8, 2025