OxyGen: Gestione Unificata della Cache KV per Modelli Visione-Linguaggio-Azione in Condizioni di Parallelismo Multi-Task

Abstract

Gli agenti di IA incarnati richiedono sempre più l'esecuzione parallela di più compiti, come manipolazione, conversazione e costruzione di memoria, a partire da osservazioni condivise ma con vincoli temporali distinti. I recenti modelli visione-linguaggio-azione (VLA) basati su Mistura di Trasformatori (MoT) supportano architetturalmente tali output eterogenei, ma gli attuali sistemi di inferenza non riescono a raggiungere un efficiente parallelismo multi-compito per il deployment su dispositivo a causa di calcoli ridondanti e contesa delle risorse. Identifichiamo la gestione isolata della cache KV come la causa principale. Per risolvere questo problema, proponiamo la gestione unificata della cache KV, un paradigma di inferenza che tratta la cache KV come una risorsa condivisa di primaria importanza tra i compiti e nel tempo. Questa astrazione abilita due ottimizzazioni chiave: la condivisione KV inter-compito elimina il precaricamento ridondante delle osservazioni condivise, mentre il batch continuo inter-fotogramma disaccoppia la decodifica linguistica a lunghezza variabile dalla generazione di azioni a frequenza fissa attraverso i cicli di controllo. Implementiamo questo paradigma per π_{0.5}, il VLA MoT più popolare, e valutiamo in configurazioni robotiche rappresentative. OxyGen raggiunge un miglioramento delle prestazioni fino a 3,7 volte rispetto all'esecuzione isolata, fornendo simultaneamente una velocità linguistica di oltre 200 token/s e una frequenza di azione di 70 Hz senza degradazione della qualità delle azioni.

English

Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.

OxyGen: Gestione Unificata della Cache KV per Modelli Visione-Linguaggio-Azione in Condizioni di Parallelismo Multi-Task

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Abstract

Support