OxyGen : Gestion unifiée du cache KV pour les modèles vision-langage-action sous parallélisme multitâche
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
March 15, 2026
Auteurs: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu
cs.AI
Résumé
Les agents d'IA incarnés nécessitent de plus en plus une exécution parallèle de multiples tâches, telles que la manipulation, la conversation et la construction de mémoire, à partir d'observations partagées sous des contraintes temporelles distinctes. Les modèles vision-langage-action (VLA) de type Mixture-of-Transformers (MoT) supportent architecturalement de telles sorties hétérogènes, mais les systèmes d'inférence existants échouent à atteindre un parallélisme multi-tâches efficace pour un déploiement embarqué en raison de calculs redondants et de conflits de ressources. Nous identifions la gestion isolée du cache KV comme la cause fondamentale. Pour y remédier, nous proposons une gestion unifiée du cache KV, un paradigme d'inférence qui traite le cache KV comme une ressource partagée de premier ordre entre les tâches et dans le temps. Cette abstraction permet deux optimisations clés : le partage KV inter-tâches élimine le pré-remplissage redondant des observations partagées, tandis le traitement par lots continu inter-trames découple le décodage linguistique à longueur variable de la génération d'actions à cadence fixe sur les cycles de contrôle. Nous implémentons ce paradigme pour π_{0.5}, le VLA MoT le plus populaire, et l'évaluons dans des configurations robotiques représentatives. OxyGen atteint jusqu'à 3.7 fois l'accélération par rapport à une exécution isolée, fournissant simultanément un débit linguistique de plus de 200 tokens/s et une fréquence d'action de 70 Hz sans dégradation de la qualité des actions.
English
Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.