PolicyTrim: Het verbeteren van de intrinsieke policy-efficiëntie van Vision-Language-Action modellen

Samenvatting

Vision-Language-Action (VLA)-modellen bieden een uniform paradigma voor robotmanipulatie, maar hun praktische inzet wordt vaak beperkt door uitvoeringsefficiëntie. Terwijl bestaande inspanningen zich voornamelijk richten op rekenkundige efficiëntie om de inferentielatentie per stap te verminderen, blijft de intrinsieke beleidsefficiëntie van deze modellen grotendeels onontgonnen. Beleidsefficiëntie wordt fundamenteel beïnvloed door twee factoren, namelijk de effectief uitvoerbare lengte van voorspelde actieblokken en het totale aantal fysieke stappen dat nodig is om een taak te voltooien. Deze twee factoren bepalen gezamenlijk het totale aantal voorwaartse inferentie-aanroepen tijdens de uitvoering. We constateren dat huidige VLA-beleidsstrategieën kampen met planningsonbetrouwbaarheid en actieredundantie, waarbij ze aanzienlijke degradatie van voorspellingen aan het einde van actieblokken vertonen en de neiging hebben om onnodig redundante fysieke stappen te genereren. Om dit aan te pakken stellen we PolicyTrim voor, een op reinforcement learning gebaseerd post-training raamwerk dat de betrouwbare actiebloklengte verlengt en redundante fysieke stappen vermindert. Voor betrouwbare blokverlenging hanteren we een dynamische exploratiestrategie die expliciet beloningen toekent voor het succesvol voltooien van langere uitvoerbare lengtes, waarmee de betrouwbare voorspellingshorizon stapsgewijs wordt opgeschroefd naar de empirische limiet. Voor stapefficiëntie ontwerpen we een redundantiebewuste beloning die direct succesvolle taakvoltooiingen met minder stappen begunstigt, terwijl niet-reproduceerbare shortcuts worden bestraft, waardoor redundante fysieke acties effectief worden geëlimineerd. Uitgebreide experimenten op drie benchmarks en drie VLA-modellen tonen aan dat PolicyTrim de benutting van actieblokken met een factor 3 verbetert en het aantal fysieke uitvoeringsstappen met 51,4% reduceert. Uiteindelijk levert ons raamwerk een tot 5,83 keer versnelde end-to-end implementatie op zonder afbreuk te doen aan het taaksuccespercentage.

English

Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic policy efficiency of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose PolicyTrim, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3times and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83times end-to-end deployment speedup without compromising task success rates.