OxyGen: Gerenciamento Unificado de Cache KV para Modelos Visão-Linguagem-Ação sob Paralelismo de Múltiplas Tarefas

Resumo

Os agentes de IA incorporados exigem cada vez mais a execução paralela de múltiplas tarefas, como manipulação, conversação e construção de memória, a partir de observações compartilhadas sob restrições de tempo distintas. Os recentes Modelos Visão-Linguagem-Ação (VLAs) baseados em Mistura de Transformadores (MoT) suportam arquitetonicamente tais saídas heterogêneas, porém os sistemas de inferência existentes falham em alcançar um paralelismo multitarefa eficiente para implantação em dispositivo devido a computação redundante e contenção de recursos. Identificamos o gerenciamento isolado da cache de Chave-Valor (KV) como a causa raiz. Para resolver isso, propomos um gerenciamento unificado da cache KV, um paradigma de inferência que trata a cache KV como um recurso compartilhado de primeira classe entre tarefas e ao longo do tempo. Esta abstração permite duas otimizações principais: o compartilhamento KV entre tarefas elimina o pré-preenchimento redundante de observações compartilhadas, enquanto o loteamento contínuo entre quadros desacopla a decodificação de linguagem de comprimento variável da geração de ações em taxa fixa entre ciclos de controle. Implementamos este paradigma para o π_{0.5}, o VLA MoT mais popular, e avaliamos sob configurações robóticas representativas. O OxyGen ativa até 3.7x de aceleração sobre a execução isolada, fornecendo simultaneamente mais de 200 tokens/s de taxa de transferência de linguagem e 70 Hz de frequência de ação sem degradação da qualidade das ações.

English

Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.

OxyGen: Gerenciamento Unificado de Cache KV para Modelos Visão-Linguagem-Ação sob Paralelismo de Múltiplas Tarefas

OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Resumo

Support