OxyGen: Унифицированное управление кэшем ключей-значений для моделей «зрение-язык-действие» в условиях многозадачного параллелизма
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
March 15, 2026
Авторы: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu
cs.AI
Аннотация
Воплощенные ИИ-агенты все чаще требуют параллельного выполнения множества задач, таких как манипулирование, ведение диалога и построение памяти, на основе общих наблюдений, но с различными временными ограничениями. Современные Vision-Language-Action Models (VLA) на основе архитектуры Mixture-of-Transformers (MoT) структурно поддерживают такие гетерогенные выходы, однако существующие системы вывода не обеспечивают эффективного многозадачного параллелизма для развертывания на устройстве из-за избыточных вычислений и конкуренции за ресурсы. Мы определяем изолированное управление KV-кэшем как коренную причину. Для решения этой проблемы мы предлагаем унифицированное управление KV-кэшем — парадигму вывода, которая рассматривает KV-кэш как разделяемый ресурс первого класса между задачами и во времени. Эта абстракция позволяет реализовать две ключевые оптимизации: совместное использование KV-кэша между задачами устраняет избыточное предзаполнение общих наблюдений, а непрерывное пакетирование между кадрами развязывает декодирование языка переменной длины с генерацией действий с фиксированной частотой across управляющих циклов. Мы реализуем эту парадигму для π_{0.5}, наиболее популярной MoT VLA, и оцениваем ее в репрезентативных конфигурациях для робототехники. OxyGen достигает ускорения до 3.7 раз по сравнению с изолированным выполнением, обеспечивая одновременную пропускную способность по языку свыше 200 токенов/с и частоту генерации действий 70 Гц без ухудшения качества действий.
English
Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.