비탐색 대항책으로서의 비전-언어-행동 모델 조정: 테스트 타임 스케일링 접근법
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
December 2, 2025
저자: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 흐름 매칭(flow-matching) 또는 확산(diffusion) 목적 함수를 통해 훈련되어 대규모 다중 모달 데이터셋(예: 인간 원격 조작, 스크립트 정책)으로부터 복잡한 행동을 학습하는 데 탁월한 성능을 보입니다. 그러나 VLA는 사전 훈련 단계에서 다양한 데이터 모드를 통합하고, 파인튜닝 데이터셋에는 종종 운동학적으로 최적이 아니거나 바람직하지 않은 방식으로 수집된 데모 데이터가 포함되기 때문에, 하위 작업의 성공 행동 모드와 무관한 중복 행동 모드가 존재합니다. 특히, 우리는 사전 훈련된 VLA를 지도 파인튜닝(supervised finetuning)한 후 다양한 샘플링된 노이즈에서 중요한 추론 시 취약성을 관찰합니다. 본 논문에서는 이러한 불안정성을 VLA 정책과 하위 작업 데이터셋의 안정적인 성공 모드에 의해 유도된 정책 간의 분포 변화(distribution shift)로 귀인합니다. 따라서 우리는 경량의 가상 카운트(pseudo-count) 추정기를 행동 청크(action chunks)의 고충실도 검증기(verifier)로 적용하는 테스트 시간 스케일링(test-time-scaling, TTS) 프레임워크인 TACO를 제안합니다. TACO와 통합된 VLA 모델은 모든 샘플링된 행동 청크 중에서 가상 카운트가 최대인 행동을 실행할 수 있으므로, 제약이 추론 시에만 적용되기 때문에 VLA의 일반화 능력을 보존하면서 분포 변화를 방지합니다. 우리의 방법은 오프라인 강화 학습(RL)의 고전적 반-탐험(anti-exploration) 원칙과 유사하며, 그래디언트 프리(gradient-free) 방식이므로, 특히 디노이징(denoising) 과정으로 인해 RL 업데이트 수행이 어려운 흐름 또는 확산 기반 VLA에 대해 RL 업데이트 대비 상당한 계산상의 이점을 가집니다. 4개의 시뮬레이션 벤치마크(RoboTwin2.0, Robotwin, LIBERO, SimplerEnv)와 듀얼 암 플랫폼에서의 광범위한 실험을 통해 우리의 방법이 하위 작업 적응에서 추론 안정성과 성공률을 크게 향상시킴을 입증합니다.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.