ChatPaper.aiChatPaper

Piloter les modèles vision-langage-action comme anti-exploration : une approche de mise à l'échelle en phase de test

Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

December 2, 2025
papers.authors: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA), entraînés via des objectifs d'appariement de flux ou de diffusion, excellent dans l'apprentissage de comportements complexes à partir de jeux de données multi-modales à grande échelle (par exemple, la téléopération humaine, les politiques scriptées). Cependant, comme les VLA intègrent des modes de données divers au stade du pré-entraînement, et que le jeu de données de fine-tuning contient souvent des données de démonstration collectées de manière cinématiquement sous-optimale ou indésirable, il existe des modes d'action redondants qui sont étrangers aux modes d'action de succès de la tâche en aval. Concrètement, nous observons une fragilité critique au moment de l'inférence parmi divers bruits échantillonnés après un fine-tuning supervisé de VLA pré-entraînés. Dans cet article, nous attribuons cette instabilité au décalage de distribution entre la politique du VLA et la politique induite par les modes de succès stables du jeu de données de la tâche en aval. Ainsi, nous proposons TACO, un cadre de mise à l'échelle au moment du test (TTS) qui applique un estimateur de pseudo-comptage léger comme vérificateur haute fidélité de segments d'action. Les modèles VLA intégrés à TACO peuvent exécuter les actions avec le pseudo-comptage maximum parmi tous les segments d'action échantillonnés, empêchant ainsi les décalages de distribution tout en préservant la capacité de généralisation des VLA puisque la contrainte n'est appliquée que pendant l'inférence. Notre méthode ressemble au principe classique d'anti-exploration en apprentissage par renforcement hors-ligne (RL), et étant sans gradient, elle offre des avantages computationnels significatifs par rapport à une mise à jour RL, surtout pour les VLA basés sur des flux ou la diffusion où la mise à jour RL est difficile en raison du processus de débruitage. Des expériences approfondies sur quatre benchmarks de simulation (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) et une plateforme bi-manuelle démontrent que notre méthode améliore significativement la stabilité de l'inférence et les taux de succès dans les adaptations de tâches en aval.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.
PDF292December 5, 2025