OxyGen: 다중 작업 병렬 처리 환경에서 시각-언어-행동 모델을 위한 통합 KV 캐시 관리
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
March 15, 2026
저자: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu
cs.AI
초록
구현된 AI 에이전트는 점차 다양한 시간 제약 하에 공유 관측 데이터로부터 조작, 대화, 메모리 구축과 같은 여러 작업을 병렬로 실행해야 할 필요가 증가하고 있습니다. 최근 Mixture-of-Transformers(MoT) 기반의 시각-언어-행동 모델(VLAs)은 구조적으로 이러한 이질적 출력을 지원하지만, 기존 추론 시스템은 중복 계산과 자원 경쟁으로 인해 온디바이스 배포를 위한 효율적인 다중 작업 병렬 처리를 달성하지 못하고 있습니다. 우리는 분리된 KV 캐시 관리가 근본 원인이라고 판단합니다. 이를 해결하기 위해 우리는 KV 캐시를 작업 간 그리고 시간에 걸쳐 1급 공유 자원으로 취급하는 추론 패러다임인 통합 KV 캐시 관리 기법을 제안합니다. 이 추상화는 두 가지 핵심 최적화를 가능하게 합니다: 교차 작업 KV 공유는 공유 관측 데이터의 중복 프리필을 제거하고, 교차 프레임 연속 배치는 가변 길이 언어 디코딩을 제어 주기별 고정 속도 행동 생성과 분리합니다. 우리는 가장 대표적인 MoT VLA인 π_{0.5}에 이 패러다임을 구현하고 대표적인 로봇 구성 하에서 평가합니다. OxyGen은 분리 실행 대비 최대 3.7배의 속도 향상을 달성하며, 행동 품질 저하 없이 동시에 200 token/s 이상의 언어 처리량과 70Hz의 행동 주파수를 제공합니다.
English
Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.