OxyGen: マルチタスク並列処理下における視覚-言語-行動モデルの統合KVキャッシュ管理
OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
March 15, 2026
著者: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu
cs.AI
要旨
エンボディードAIエージェントは、異なる時間制約下で共有観測から操作、対話、記憶構築などの複数タスクを並列実行する必要性が高まっている。近年のMixture-of-Transformers (MoT) アーキテクチャに基づくVision-Language-Actionモデル (VLA) は構造的にこうした異種出力をサポートするが、既存の推論システムでは計算の重複やリソース競合により、オンデバイス展開における効率的なマルチタスク並列処理を実現できていない。本問題の根本原因をKVキャッシュ管理の分離にあると特定する。これに対処するため、我々はKVキャッシュをタスク横断的・時間的に共有される第一級リソースとして扱う推論パラダイムである統一KVキャッシュ管理を提案する。この抽象化により二つの重要最適化が可能となる:共有観測の重複プリフィルを排除するタスク横断的KV共有と、制御周期を跨いだ可変長言語デコーディングと固定周期アクション生成を分離するフレーム横断的連続バッチ処理である。本パラダイムを最も普及しているMoT VLAであるπ_{0.5}向けに実装し、代表的なロボット設定で評価した。OxyGenは分離実行比最大3.7倍の高速化を達成し、アクション品質を劣化させることなく200トークン/秒以上の言語処理速度と70 Hzのアクション生成頻度を同時に実現した。
English
Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for π_{0.5}, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7times speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.