OxyGen: Einheitliche KV-Cache-Verwaltung für Vision-Sprache-Handlung-Modelle unter Multi-Task-Parallelität
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
March 15, 2026
Autoren: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu
cs.AI
Zusammenfassung
Embodied KI-Agenten benötigen zunehmend die parallele Ausführung mehrerer Aufgaben wie Manipulation, Konversation und Gedächtniskonstruktion aus gemeinsamen Beobachtungen unter unterschiedlichen Zeitbeschränkungen. Neuere Mixture-of-Transformers (MoT) Vision-Language-Action-Modelle (VLAs) unterstützen solche heterogenen Ausgaben zwar architektonisch, doch bestehende Inferenzsysteme erreichen aufgrund redundanter Berechnungen und Ressourcenkonflikten keine effiziente Multi-Task-Parallelität für On-Device-Bereitstellung. Wir identifizieren die isolierte KV-Cache-Verwaltung als Hauptursache. Zur Lösung schlagen wir eine vereinheitlichte KV-Cache-Verwaltung vor, ein Inferenzparadigma, das den KV-Cache als shared Resource erster Klasse über Aufgaben und Zeit hinweg behandelt. Diese Abstraktion ermöglicht zwei Schlüsseloptimierungen: KV-Sharing zwischen Aufgaben eliminiert redundantes Prefilling gemeinsamer Beobachtungen, während Continuous Batching über Rahmen hinweg die Sprachdekodierung variabler Länge von der Aktionsgenerierung mit fester Rate über Steuerungszyklen entkoppelt. Wir implementieren dieses Paradigma für π_{0.5}, das beliebteste MoT-VLA, und evaluieren es unter repräsentativen Robotikkonfigurationen. OxyGen erreicht bis zu 3,7-fache Beschleunigung gegenüber isolierter Ausführung und liefert gleichzeitig über 200 Token/s Sprachdurchsatz und 70 Hz Aktionsfrequenz ohne Qualitätseinbußen bei den Aktionen.
English
Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.