Sturing van Visie-Taal-Actie-Modellen als Tegengaan van Verkenning: Een Testtijd-Schalingbenadering
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
December 2, 2025
Auteurs: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen, getraind via flow-matching- of diffusiedoelstellingen, blinken uit in het leren van complex gedrag uit grootschalige, multimodale datasets (bijvoorbeeld menselijke teleoperatie, gescripte beleidsregels). Omdat VLA's echter diverse gegevensmodi incorporeren in de voorafgaande trainingsfase, en de finetuning-dataset vaak demonstratiegegevens bevat die op kinematisch suboptimale of ongewenste wijze zijn verzameld, bestaan er redundante actiemodi die niet relevant zijn voor de succesvolle actiemodi van de downstream-taak. Specifiek observeren we een kritieke kwetsbaarheid tijdens inferentie bij verschillende bemonsterde ruis na supervised finetuning van vooraf getrainde VLA's. In dit artikel schrijven we deze instabiliteit toe aan de distributieverschuiving tussen het VLA-beleid en het beleid geïnduceerd door stabiele succesmodi van de downstream-taakdataset. Daarom stellen we TACO voor, een test-time-scaling (TTS)-raamwerk dat een lichtgewicht pseudo-count-schatter gebruikt als een hoogwaardige verificateur van actiebrokken. De VLA-modellen geïntegreerd met TACO kunnen de acties uitvoeren met de maximale pseudo-count van alle bemonsterde actiebrokken, waardoor distributieverschuivingen worden voorkomen terwijl het generalisatievermogen van VLA's behouden blijft, aangezien de beperking alleen tijdens inferentie wordt toegepast. Onze methode lijkt op het klassieke anti-exploratieprincipe in offline reinforcement learning (RL), en omdat het gradient-vrij is, biedt het aanzienlijke rekenvoordelen vergeleken met RL-updates, vooral voor flow- of diffusiegebaseerde VLA's waarop RL-updates moeilijk uit te voeren zijn vanwege het denoiseringsproces. Uitgebreide experimenten over vier simulatiebenchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) en een dual-arm platform tonen aan dat onze methode de inferentiestabiliteit en succespercentages bij downstream-taakaanpassingen aanzienlijk verbetert.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.