OxyGen: Gestión Unificada de la Caché KV para Modelos Visión-Lenguaje-Acción bajo Paralelismo Multi-Tarea
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
March 15, 2026
Autores: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu
cs.AI
Resumen
Los agentes de IA embebidos requieren cada vez más la ejecución paralela de múltiples tareas, como manipulación, conversación y construcción de memoria, a partir de observaciones compartidas bajo distintas restricciones temporales. Los modelos recientes de Mezcla de Transformadores (MoT) para Visión, Lenguaje y Acción (VLA) admiten arquitectónicamente dichas salidas heterogéneas, pero los sistemas de inferencia existentes no logran un paralelismo multitarea eficiente para implementación en dispositivo debido a la computación redundante y la contención de recursos. Identificamos la gestión aislada de la caché KV como la causa principal. Para abordarlo, proponemos una gestión unificada de la caché KV, un paradigma de inferencia que trata la caché KV como un recurso compartido de primera clase entre tareas y en el tiempo. Esta abstracción permite dos optimizaciones clave: el intercambio KV entre tareas elimina el prellenado redundante de observaciones compartidas, mientras que el procesamiento por lotes continuo entre fotogramas desacopla la decodificación de lenguaje de longitud variable de la generación de acciones a tasa fija entre ciclos de control. Implementamos este paradigma para π_{0.5}, el VLA MoT más popular, y evaluamos bajo configuraciones robóticas representativas. OxyGen logra una aceleración de hasta 3.7 veces sobre la ejecución aislada, ofreciendo simultáneamente un rendimiento lingüístico superior a 200 tokens/s y una frecuencia de acción de 70 Hz sin degradación de la calidad de las acciones.
English
Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.