Guidare i Modelli Visione-Linguaggio-Azione come Anti-Esplorazione: Un Approccio di Scalabilità a Tempo di Test
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
December 2, 2025
Autori: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI
Abstract
I modelli Vision-Language-Action (VLA), addestrati tramite obiettivi di flow-matching o diffusione, eccellono nell'apprendere comportamenti complessi da dataset su larga scala e multi-modali (ad esempio, teleoperazione umana, politiche scriptate). Tuttavia, poiché i VLA incorporano modalità di dati diverse nella fase di pre-addestramento, e il dataset di fine-tuning contiene spesso dati dimostrativi raccolti in modo cinematicamente subottimale o indesiderabile, esistono modalità d'azione ridondanti irrilevanti rispetto alle modalità d'azione di successo per il task a valle. Nello specifico, osserviamo una critica fragilità al momento dell'inferenza tra vari rumori campionati dopo il fine-tuning supervisionato di VLA pre-addestrati. In questo articolo, attribuiamo questa instabilità allo shift distributivo tra la politica del VLA e la politica indotta dalle modalità di successo stabili del dataset del task a valle. Pertanto, proponiamo TACO, un framework di test-time-scaling (TTS) che applica un stimatore di pseudo-conteggio leggero come verificatore ad alta fedeltà di chunk d'azione. I modelli VLA integrati con TACO possono eseguire le azioni con il massimo pseudo-conteggio tra tutti i chunk d'azione campionati, prevenendo così gli shift distributivi mentre si preserva l'abilità di generalizzazione dei VLA, poiché il vincolo è applicato solo durante l'inferenza. Il nostro metodo ricorda il classico principio anti-esplorazione nel reinforcement learning (RL) offline, e, essendo gradient-free, offre significativi vantaggi computazionali rispetto ad un aggiornamento RL, specialmente per i VLA basati su flusso o diffusione per i quali è difficile eseguire aggiornamenti RL a causa del processo di denoising. Esperimenti estensivi su quattro benchmark di simulazione (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) e su una piattaforma a due bracci dimostrano che il nostro metodo migliora significativamente la stabilità inferenziale e i tassi di successo negli adattamenti ai task a valle.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.