PolicyTrim: Повышение внутренней эффективности политики моделей зрения-языка-действия

Аннотация

Модели Vision-Language-Action (VLA) представляют собой единую парадигму для роботизированного манипулирования, однако их развертывание в реальных условиях часто ограничено эффективностью выполнения. Хотя существующие усилия в основном сосредоточены на вычислительной эффективности для снижения задержки вывода на каждом шаге, внутренняя эффективность политики этих моделей остается в значительной степени неизученной. Эффективность политики в первую очередь определяется двумя факторами: эффективной исполнимой длиной предсказанных блоков действий и общим количеством физических шагов, необходимых для выполнения задачи. Эти два фактора совместно определяют общее количество вызовов прямого вывода в процессе выполнения. Мы замечаем, что текущие VLA-политики страдают от ненадежности планирования и избыточности действий, демонстрируя серьезную деградацию предсказаний в конце блоков действий и склонность к генерации излишне избыточных физических шагов. Для решения этой проблемы мы предлагаем PolicyTrim — фреймворк последующего обучения на основе обучения с подкреплением, который расширяет надежную длину блоков действий и сокращает избыточные физические шаги. Для надежного расширения блоков мы используем стратегию динамического исследования, которая явно поощряет успешное выполнение задач с большей исполнимой длиной, постепенно продвигая доверительный горизонт предсказаний к его эмпирическому пределу. Для эффективности шагов мы разрабатываем награду, учитывающую избыточность, которая напрямую поощряет успешное выполнение задач с меньшим числом шагов и одновременно штрафует невоспроизводимые сокращения, эффективно устраняя избыточные физические действия. Обширные эксперименты на трех эталонных наборах данных и трех VLA-моделях показывают, что PolicyTrim улучшает использование блоков действий в 3 раза и сокращает количество физических шагов выполнения на 51,4%. В конечном итоге наш фреймворк обеспечивает ускорение сквозного развертывания до 5,83 раза без снижения показателя успешности выполнения задач.

English

Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic policy efficiency of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose PolicyTrim, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3times and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83times end-to-end deployment speedup without compromising task success rates.