Direcionando Modelos Visão-Linguagem-Ação como Anti-Exploração: Uma Abordagem de Escalonamento em Tempo de Teste
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
December 2, 2025
Autores: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA), treinados através de objetivos de correspondência de fluxo (flow-matching) ou difusão, destacam-se na aprendizagem de comportamentos complexos a partir de conjuntos de dados multimodais de grande escala (ex.: teleoperação humana, políticas scriptadas). No entanto, como os VLAs incorporam diversos modos de dados na fase de pré-treinamento, e o conjunto de dados de afinação (finetuning) frequentemente contém dados de demonstração coletados de forma cinematicamente subótima ou indesejável, existem modos de ação redundantes que são irrelevantes para os modos de ação de sucesso da tarefa específica (downstream task). Especificamente, observamos uma fragilidade crítica durante a inferência entre vários ruídos amostrados após a afinação supervisionada de VLAs pré-treinados. Neste artigo, atribuímos esta instabilidade à mudança de distribuição (distribution shift) entre a política do VLA e a política induzida pelos modos estáveis de sucesso do conjunto de dados da tarefa específica. Assim, propomos o TACO, uma estrutura de escalonamento no tempo de teste (test-time-scaling - TTS) que aplica um estimador leve de pseudo-contagem (pseudo-count) como um verificador de alta fidelidade de blocos de ação (action chunks). Os modelos VLA integrados com o TACO podem executar as ações com a pseudo-contagem máxima a partir de todos os blocos de ação amostrados, prevenindo assim mudanças de distribuição enquanto preservam a capacidade de generalização dos VLAs, uma vez que a restrição é aplicada apenas durante a inferência. O nosso método assemelha-se ao princípio clássico anti-exploração (anti-exploration) na aprendizagem por reforço offline (offline RL) e, por ser livre de gradientes (gradient-free), oferece benefícios computacionais significativos em comparação com uma atualização por RL, especialmente para VLAs baseados em fluxo ou difusão, nos quais é difícil realizar atualizações por RL devido ao processo de remoção de ruído (denoising). Experimentos extensivos em quatro benchmarks de simulação (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) e numa plataforma de dois braços robóticos demonstram que o nosso método melhora significativamente a estabilidade da inferência e as taxas de sucesso nas adaptações a tarefas específicas.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.