PolicyTrim: Impulsando la Eficiencia Intrínseca de la Política de los Modelos Visión-Lenguaje-Acción

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) proporcionan un paradigma unificado para la manipulación robótica, pero su despliegue en el mundo real a menudo se ve limitado por la eficiencia de ejecución. Si bien los esfuerzos existentes se centran predominantemente en la eficiencia centrada en el cómputo para reducir la latencia de inferencia por paso, la eficiencia intrínseca de la política de estos modelos sigue siendo en gran medida inexplorada. La eficiencia de la política se ve afectada fundamentalmente por dos factores: la longitud ejecutable efectiva de los fragmentos de acción predichos y el total de pasos físicos necesarios para completar una tarea. Estos dos factores determinan conjuntamente el número total de llamadas de inferencia hacia adelante durante la ejecución. Observamos que las políticas VLA actuales presentan problemas de falta de fiabilidad en la planificación y redundancia de acciones, sufriendo una severa degradación de la predicción en la cola de los fragmentos de acción y tendiendo a generar pasos físicos innecesariamente redundantes. Para abordar esto, proponemos PolicyTrim, un marco de post-entrenamiento basado en aprendizaje por refuerzo que extiende la longitud confiable de los fragmentos de acción y reduce los pasos físicos redundantes. Para la extensión confiable de fragmentos, empleamos una estrategia de exploración dinámica que recompensa explícitamente la finalización exitosa de longitudes ejecutables más largas, llevando progresivamente el horizonte de predicción confiable a su límite empírico. Para la eficiencia de pasos, diseñamos una recompensa consciente de la redundancia que favorece directamente las finalizaciones exitosas de tareas con menos pasos, mientras penaliza los atajos no reproducibles, eliminando efectivamente las acciones físicas redundantes. Experimentos extensos en tres referencias y tres modelos VLA demuestran que PolicyTrim mejora la utilización de fragmentos de acción en 3 veces y reduce los pasos de ejecución física en un 51,4%. En última instancia, nuestro marco proporciona una aceleración de despliegue de extremo a extremo de hasta 5,83 veces sin comprometer las tasas de éxito de las tareas.

English

Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic policy efficiency of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose PolicyTrim, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3times and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83times end-to-end deployment speedup without compromising task success rates.