PolicyTrim: Steigerung der intrinsischen Policy-Effizienz von Vision-Sprache-Aktions-Modellen

Zusammenfassung

Vision-Language-Action (VLA)-Modelle bieten ein einheitliches Paradigma für die Robotermanipulation, jedoch wird ihr praktischer Einsatz oft durch die Ausführungseffizienz begrenzt. Während sich bestehende Ansätze vorwiegend auf rechenzentrierte Effizienz zur Reduzierung der Inferenzlatenz pro Schritt konzentrieren, bleibt die intrinsische Policy-Effizienz dieser Modelle weitgehend unerforscht. Die Policy-Effizienz wird grundlegend von zwei Faktoren beeinflusst: der effektiven ausführbaren Länge der vorhergesagten Aktionsblöcke und der Gesamtzahl der physikalischen Schritte, die zur Erledigung einer Aufgabe erforderlich sind. Diese beiden Faktoren bestimmen gemeinsam die Gesamtzahl der Vorwärtsinferenzaufrufe während der Ausführung. Wir beobachten, dass aktuelle VLA-Policies unter Planungsunzuverlässigkeit und Aktionsredundanz leiden, mit einer schwerwiegenden Vorhersageverschlechterung am Ende von Aktionsblöcken und der Neigung, unnötig redundante physikalische Schritte zu erzeugen. Um dies zu adressieren, schlagen wir PolicyTrim vor, ein auf Reinforcement Learning basierendes Post-Training-Framework, das die zuverlässige Aktionsblocklänge verlängert und redundante physikalische Schritte reduziert. Für die zuverlässige Blockverlängerung setzen wir eine dynamische Erkundungsstrategie ein, die explizit die erfolgreiche Ausführung längerer ausführbarer Längen belohnt und so den vertrauenswürdigen Vorhersagehorizont schrittweise bis an seine empirische Grenze erweitert. Für die Schritteffizienz entwerfen wir eine redundanzbewusste Belohnung, die direkt erfolgreiche Aufgabenabschlüsse mit weniger Schritten begünstigt und gleichzeitig nicht reproduzierbare Abkürzungen bestraft, wodurch redundante physikalische Aktionen effektiv eliminiert werden. Umfangreiche Experimente über drei Benchmarks und drei VLA-Modelle hinweg zeigen, dass PolicyTrim die Aktionsblocknutzung um das Dreifache verbessert und die Anzahl physikalischer Ausführungsschritte um 51,4 % reduziert. Letztlich erzielt unser Framework eine bis zu 5,83-fache End-to-End-Bereitstellungsbeschleunigung, ohne die Aufgabenabschlussraten zu beeinträchtigen.

English

Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic policy efficiency of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose PolicyTrim, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3times and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83times end-to-end deployment speedup without compromising task success rates.