Dirigiendo Modelos de Visión-Lenguaje-Acción como Anti-Exploración: Un Enfoque de Escalado en Tiempo de Prueba
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
December 2, 2025
Autores: Siyuan Yang, Yang Zhang, Haoran He, Ling Pan, Xiu Li, Chenjia Bai, Xuelong Li
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA), entrenados mediante objetivos de correspondencia de flujo (flow-matching) o difusión, sobresalen en el aprendizaje de comportamientos complejos a partir de conjuntos de datos multimodales a gran escala (por ejemplo, teleoperación humana, políticas guionadas). Sin embargo, dado que los VLA incorporan diversos modos de datos en la etapa de preentrenamiento, y el conjunto de datos de ajuste fino a menudo contiene datos de demostración recopilados de una manera cinemáticamente subóptima o indeseable, existen modos de acción redundantes que son irrelevantes para los modos de acción exitosos de la tarea secundaria. Específicamente, observamos una fragilidad crítica en el momento de la inferencia entre diversos ruidos muestreados después del ajuste fino supervisado de VLA preentrenados. En este artículo, atribuimos esta inestabilidad al cambio de distribución entre la política del VLA y la política inducida por los modos estables de éxito del conjunto de datos de la tarea secundaria. Por lo tanto, proponemos TACO, un marco de escalado en tiempo de prueba (TTS) que aplica un estimador de pseudo-conteo ligero como verificador de alta fidelidad de fragmentos de acción. Los modelos VLA integrados con TACO pueden ejecutar las acciones con el máximo pseudo-conteo de todos los fragmentos de acción muestreados, evitando así cambios de distribución mientras se preserva la capacidad de generalización de los VLA, ya que la restricción se aplica solo durante la inferencia. Nuestro método se asemeja al principio clásico de anti-exploración en el aprendizaje por refuerzo fuera de línea (RL), y al ser libre de gradientes, conlleva beneficios computacionales significativos en comparación con la actualización por RL, especialmente para VLA basados en flujo o difusión, en los que es difícil realizar actualizaciones por RL debido al proceso de eliminación de ruido. Experimentos exhaustivos en cuatro benchmarks de simulación (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) y una plataforma de doble brazo demuestran que nuestro método mejora significativamente la estabilidad de la inferencia y las tasas de éxito en las adaptaciones a tareas secundarias.
English
Vision-Language-Action (VLA) models, trained via flow-matching or diffusion objectives, excel at learning complex behaviors from large-scale, multi-modal datasets (e.g., human teleoperation, scripted policies). However, since VLAs incorporate diverse data modes in the pre-training stage, and the finetuning dataset often contains demonstration data collected in a kinematically suboptimal or undesirable way, it exists redundant action modes that are irrelevant to the success action modes of the downstream task. Specifically, we observe a critical inference-time fragility among various sampled noises after supervised finetuning of pre-trained VLAs. In this paper, we attribute this instability to the distribution shift between the VLA policy and the policy induced by stable success modes of the downstream task dataset. Thus, we propose TACO, a test-time-scaling (TTS) framework that applies a lightweight pseudo-count estimator as a high-fidelity verifier of action chunks. The VLA models integrated with TACO can execute the actions with maximum pseudo-count from all sampled action chunks, thereby preventing distribution shifts while preserving the generalization ability of VLAs since the constraint is applied only during inference. Our method resembles the classical anti-exploration principle in offline reinforcement learning (RL), and being gradient-free, it incurs significant computational benefits compared to RL update, especially for flow or diffusion-based VLAs which are difficult to perform RL update due to denoising process. Extensive experiments across four simulation benchmarks (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) and a dual-arm platform demonstrate that our method significantly improves the inference stability and success rates in downstream-task adaptations.