ChatPaper.aiChatPaper

Steuerung von Vision-Sprache-Handlung-Modellen als Anti-Exploration: Ein Testzeit-Skalierungsansatz

Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

December 2, 2025
papers.authors: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Modelle, die mittels Flow-Matching- oder Diffusionszielen trainiert werden, zeichnen sich durch die Fähigkeit aus, komplexe Verhaltensweisen aus groß angelegten, multimodalen Datensätzen (z.B. menschliche Teleoperation, skriptbasierte Policies) zu erlernen. Da VLAs jedoch bereits im Vor-Trainingsstadium diverse Datenmodalitäten integrieren und der Feinjustierungs-Datensatz häufig Demonstrationsdaten enthält, die auf kinematisch suboptimale oder unerwünschte Weise erhoben wurden, existieren redundante Aktionsmodi, die für die erfolgreichen Aktionsmodi der nachgelagerten Aufgabe irrelevant sind. Konkret beobachten wir eine kritische Inferenz-Zeit-Empfindlichkeit gegenüber verschiedenen Rausch-Stichproben nach überwachtem Fein-Tuning von vortrainierten VLAs. In diesem Artikel führen wir diese Instabilität auf eine Verteilungsverschiebung zwischen der VLA-Policy und der durch die stabilen Erfolgsmodi des Downstream-Task-Datensatzes induzierten Policy zurück. Daher schlagen wir TACO vor, ein Test-Time-Scaling (TTS)-Framework, das einen leichten Pseudo-Count-Schätzer als hochpräzisen Verifizierer von Aktions-Blöcken einsetzt. Die mit TACO integrierten VLA-Modelle können die Aktionen mit dem maximalen Pseudo-Count aus allen gesampelten Aktions-Blöcken ausführen, wodurch Verteilungsverschiebungen verhindert werden, während die Generalisierungsfähigkeit der VLAs erhalten bleibt, da die Beschränkung nur während der Inferenz angewendet wird. Unsere Methode ähnelt dem klassischen Anti-Exploration-Prinzip im Offline Reinforcement Learning (RL) und ist, da gradientenfrei, mit erheblichen Rechenvorteilen im Vergleich zu RL-Updates verbunden, insbesondere für flow- oder diffusionsbasierte VLAs, bei denen RL-Updates aufgrund des Entrauschungsprozesses schwierig durchzuführen sind. Umfangreiche Experimente über vier Simulations-Benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) und eine Zwei-Arm-Plattform demonstrieren, dass unsere Methode die Inferenzstabilität und Erfolgsquoten bei Downstream-Task-Anpassungen signifikant verbessert.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.
PDF292December 5, 2025