ChatPaper.aiChatPaper

Управление моделями «зрение-язык-действие» как метод противодействия исследовательскому поведению: подход масштабирования на этапе тестирования

Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

December 2, 2025
Авторы: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI

Аннотация

Модели «Vision-Language-Action» (VLA), обученные с помощью методов согласования потоков или диффузионных целей, превосходно справляются с изучением сложных поведений из крупномасштабных многомодальных наборов данных (например, данных телеоперации человеком, сценарных политик). Однако, поскольку VLA включают в себя разнородные режимы данных на этапе предварительного обучения, а набор данных для дообучения часто содержит демонстрационные данные, собранные кинематически неоптимальным или нежелательным образом, в них присутствуют избыточные режимы действий, не связанные с успешными режимами целевой задачи. В частности, мы наблюдаем критическую хрупкость на этапе вывода при различных сэмплированных шумах после контролируемого дообучения предварительно обученных VLA. В данной статье мы объясняем эту нестабильность сдвигом распределения между политикой VLA и политикой, индуцированной стабильными успешными режимами набора данных целевой задачи. Таким образом, мы предлагаем TACO — фреймворк масштабирования на этапе тестирования (TTS), который применяет легковесный псевдо-счетчик в качестве высокоточной системы верификации фрагментов действий. Модели VLA, интегрированные с TACO, могут выполнять действия с максимальным псевдо-счетчиком из всех сэмплированных фрагментов действий, тем самым предотвращая сдвиги распределения, сохраняя при этом способность VLA к обобщению, поскольку ограничение применяется только на этапе вывода. Наш метод напоминает классический принцип анти-исследования в обучении с подкреплением (RL) оффлайн и, будучи бесградиентным, обеспечивает значительные вычислительные преимущества по сравнению с RL-обновлением, особенно для VLA на основе потоков или диффузии, для которых сложно выполнять RL-обновление из-за процесса удаления шума. Многочисленные эксперименты на четырех симуляционных стендах (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) и платформе с двумя манипуляторами демонстрируют, что наш метод существенно повышает стабильность вывода и процент успешных выполнений при адаптации к целевым задачам.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.
PDF292December 5, 2025