ChatPaper.aiChatPaper

LiveEdit: リアルタイム拡散ベースのストリーミング動画編集に向けて

LiveEdit: Towards Real-Time Diffusion-Based Streaming Video Editing

June 25, 2026
著者: Xinyu Wang, Chongbo Zhao, Fangneng Zhan, Yue Ma
cs.AI

要旨

ストリーミング動画編集は急速に進歩しているが、実用的な展開は依然として二つの核心的な課題に制限されている。すなわち、時間経過にわたる安定した背景と非編集領域の維持、そしてリアルタイムの対話的シナリオに求められる低遅延の実現である。一方、最近のストリーミング動画生成手法は主に合成向けに開発されており、厳格な保存要件と領域固有の制御が必要な編集に直接適用することはできない。本研究では、強力なコンテンツ保存とリアルタイム応答性を備えた、因果的でフレーム単位の編集を行う新たなストリーミング動画編集フレームワークを提案する。我々の鍵となる設計は、強力な双方向基盤モデルから効率的な単方向ストリーミング編集器へと編集能力を段階的に転移する三段階蒸留パイプラインであり、視覚的忠実度を犠牲にすることなく安定した長期的編集を可能にする。さらに、リアルタイム展開を支援するため、領域関連の計算をフレーム間で再利用するAR指向のマスクキャッシュを導入し、冗長な処理を大幅に削減して推論を高速化する。最後に、ストリーミング動画編集専用のベンチマークを確立する。広範な評価により、我々の手法はストリーミングベースライン群の中で最先端の画質を達成すると同時に、推論速度を12.66 FPSまで劇的に向上させ、インタラクティブおよび拡張現実アプリケーションに適した性能を示す。
English
Streaming video editing has made rapid progress, yet practical deployment is still limited by two core issues: maintaining stable backgrounds and non-edited regions over time, and achieving the low latency required for real-time interactive scenarios. Meanwhile, recent streaming video generation methods are mostly developed for synthesis and cannot be directly applied to editing due to the strict preservation requirement and region-specific control. In this work, we present a novel streaming video editing framework that performs causal, frame-by-frame editing with strong content preservation and real-time responsiveness. Our key design is a three-stage distillation pipeline that progressively transfers editing capability from a powerful bidirectional foundation model to an efficient unidirectional streaming editor, enabling stable long-horizon edits without sacrificing visual fidelity. To further support real-time deployment, we introduce an AR-oriented mask cache that reuses region-related computation across frames, substantially reducing redundant processing and accelerating inference. Finally, we establish a dedicated benchmark for streaming video editing. Extensive evaluations demonstrate that our method achieves state-of-the-art visual quality among streaming baselines while drastically boosting inference speed to 12.66 FPS, making it suitable for interactive and augmented reality applications.