EgoEdit:一人称視点映像編集のためのデータセット、リアルタイムストリーミングモデル、およびベンチマーク
EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
December 5, 2025
著者: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI
要旨
我々は、インタラクティブARアプリケーションのためのエゴセントリック動画の指示文誘導型編集を研究する。近年のAI動画編集技術は第三者視点の映像では良好な性能を示すが、エゴセントリック視点には急激な自己運動や頻繁な手-物体インタラクションといった特有の課題があり、大きな領域差が生じている。さらに、既存のオフライン編集パイプラインは高遅延が課題であり、実時間インタラクションを制限している。これらの問題に対処するため、我々はエゴセントリック動画編集のための包括的エコシステムを提案する。第一に、手-物体インタラクションが豊富で手の存在を明示的に保持する、エゴセントリック編集シナリオに特化して入念に設計・手作業で整備されたデータセットEgoEditDataを構築した。第二に、単一GPU上で実時間ストリーミング推論を可能にする指示文追従型エゴセントリック動画エディタEgoEditを開発した。最後に、自己運動下での指示忠実性、手およびインタラクションの保持、時間的安定性に焦点を当てた評価スイートEgoEditBenchを導入する。EgoEditは、エゴセントリックおよび一般編集タスクの両方において、時間的に安定した指示忠実な結果をインタラクティブな遅延で生成する。既存手法が苦手とするエゴセントリック編集ベンチマークで明確な性能向上を達成すると同時に、一般編集タスクでは最強のベースラインと同等の性能を維持する。EgoEditDataとEgoEditBenchは研究コミュニティに公開予定である。詳細は当プロジェクトサイト(https://snap-research.github.io/EgoEdit)を参照されたい。
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit