PolicyTrim : Améliorer l'efficacité intrinsèque de la politique des modèles Vision-Langage-Action

Résumé

Les modèles Vision-Langage-Action (VLA) offrent un paradigme unifié pour la manipulation robotique, mais leur déploiement dans le monde réel est souvent limité par l'efficacité d'exécution. Alors que les travaux existants se concentrent principalement sur l'efficacité centrée sur le calcul pour réduire la latence d'inférence par étape, l'efficacité intrinsèque de la politique de ces modèles reste largement inexplorée. L'efficacité de la politique est fondamentalement affectée par deux facteurs, à savoir la longueur exécutable effective des séquences d'actions prédites et le nombre total d'étapes physiques nécessaires pour accomplir une tâche. Ces deux facteurs déterminent conjointement le nombre total d'appels d'inférence vers l'avant pendant l'exécution. Nous observons que les politiques VLA actuelles souffrent d'un manque de fiabilité de planification et de redondance d'actions, avec une dégradation sévère des prédictions en fin de séquence d'actions et une tendance à générer des étapes physiques redondantes inutiles. Pour y remédier, nous proposons PolicyTrim, un cadre de post-entraînement basé sur l'apprentissage par renforcement qui étend la longueur fiable des séquences d'actions et réduit les étapes physiques redondantes. Pour l'extension fiable des séquences, nous employons une stratégie d'exploration dynamique qui récompense explicitement la réalisation réussie de longueurs exécutables plus longues, repoussant progressivement l'horizon de prédiction fiable jusqu'à sa limite empirique. Pour l'efficacité en termes d'étapes, nous concevons une récompense sensible à la redondance qui favorise directement les accomplissements réussis de tâches avec moins d'étapes tout en pénalisant les raccourcis non reproductibles, éliminant ainsi efficacement les actions physiques redondantes. Des expériences approfondies sur trois benchmarks et trois modèles VLA démontrent que PolicyTrim améliore l'utilisation des séquences d'actions d'un facteur 3 et réduit les étapes d'exécution physique de 51,4 %. Finalement, notre cadre permet une accélération du déploiement de bout en bout allant jusqu'à 5,83 fois sans compromettre les taux de réussite des tâches.

English

Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic policy efficiency of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose PolicyTrim, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3times and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83times end-to-end deployment speedup without compromising task success rates.