EgoEdit: 에고센트릭 비디오 편집을 위한 데이터셋, 실시간 스트리밍 모델 및 벤치마크
EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
December 5, 2025
저자: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI
초록
우리는 인터랙티브 AR 애플리케이션을 위한 지시어 기반 1인칭 영상 편집을 연구합니다. 최신 AI 영상 편집기는 3인칭 영상에서는 좋은 성능을 보이지만, 1인칭 시점은 급격한 자체 운동과 빈번한 손-객체 상호작용 같은 독특한 과제를 제시하여 상당한 도메인 차이를 만듭니다. 더욱이 기존의 오프라인 편집 파이프라인은 높은 지연 시간으로 인해 실시간 상호작용을 제한합니다. 이러한 문제를 해결하기 위해 우리는 1인칭 영상 편집을 위한 완전한 생태계를 제시합니다. 첫째, EgoEditData를 구축했습니다. 이는 풍부한 손-객체 상호작용을 특징으로 하면서 손을 명시적으로 보존하도록 특별히 설계되고 수작업으로 정제된, 1인칭 편집 시나리오 전용 데이터셋입니다. 둘째, 단일 GPU에서 실시간 스트리밍 추론을 지원하는 지시어 추종 1인칭 영상 편집기인 EgoEdit을 개발했습니다. 마지막으로, 지시어 충실도, 손 및 상호작용 보존, 자체 운동 하에서의 시간적 안정성을 평가하는 EgoEditBench 평가 도구를 소개합니다. EgoEdit은 1인칭 및 일반 편집 작업 전반에 걸쳐 상호작용 수준의 지연 시간으로 시간적으로 안정적이고 지시어에 충실한 결과를 생성합니다. 이는 기존 방법이 어려움을 겪는 1인칭 편집 벤치마크에서 명확한 성능 향상을 달성하는 동시에 일반 편집 작업에서는 가장 강력한 베이스라인과 비슷한 성능을 유지합니다. EgoEditData와 EgoEditBench는 연구 커뮤니티를 위해 공개될 예정입니다. 자세한 내용은 웹사이트(https://snap-research.github.io/EgoEdit)를 참조하십시오.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit