視覚-言語-行動モデルの制御による反探索:テスト時スケーリングアプローチ
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
December 2, 2025
著者: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI
要旨
視覚言語行動(VLA)モデルは、フローマッチングや拡散目標による訓練を通じて、大規模なマルチモーダルデータセット(例:人間の遠隔操作、スクリプト化されたポリシー)から複雑な行動を学習するのに優れている。しかし、VLAは事前学習段階で多様なデータモードを統合する一方、ファインチューニングデータセットには運動学的に最適でない、あるいは望ましくない方法で収集された実証データが含まれることが多いため、下流タスクの成功行動モードとは無関係な冗長な行動モードが存在する。具体的には、事前学習済みVLAの教師ありファインチューニング後、様々なサンプリングノイズにおいて推論時の脆弱性が顕著に観察される。本論文では、この不安定性を、VLAポリシーと下流タスクデータセットの安定した成功モードによって誘導されるポリシーとの間の分布シフトに帰因する。そこで我々は、軽量な擬似カウント推定量を行動チャンクの高精度検証器として適用するテストタイムスケーリング(TTS)フレームワークであるTACOを提案する。TACOを統合したVLAモデルは、サンプリングされた全行動チャンクから擬似カウントが最大となる行動を実行できるため、分布シフトを防止しつつ、制約が推論時にのみ適用されるためVLAの汎化能力を維持できる。本手法は、オフライン強化学習(RL)における古典的な反探索原理に類似しており、勾配計算を必要としないため、特に脱ノイズ過程のためにRL更新が困難なフローまたは拡散ベースのVLAにおいて、RL更新と比較して計算コストの大幅な削減が可能である。4つのシミュレーションベンチマーク(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)およびデュアルアームプラットフォームでの大規模な実験により、本手法が下流タスク適応における推論の安定性と成功率を大幅に向上させることを実証する。
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.