EgoEdit: Dataset, Modello di Streaming in Tempo Reale e Benchmark per il Montaggio Video Egocentrico
EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
December 5, 2025
Autori: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI
Abstract
Studiamo l'editing di video egocentrici guidato da istruzioni per applicazioni AR interattive. Sebbene i recenti editor video basati su IA funzionino bene su filmati in terza persona, le visuali egocentriche presentano sfide uniche – inclusi rapidi movimenti ego e frequenti interazioni mano-oggetto – che creano un significativo divario di dominio. Inoltre, le pipeline di editing offline esistenti soffrono di un'elevata latenza, limitando l'interazione in tempo reale. Per affrontare questi problemi, presentiamo un ecosistema completo per l'editing video egocentrico. In primo luogo, costruiamo EgoEditData, un dataset progettato con cura e curato manualmente, specificamente ideato per scenari di editing egocentrico, che presenta ricche interazioni mano-oggetto preservando esplicitamente le mani. In secondo luogo, sviluppiamo EgoEdit, un editor video egocentrico che segue le istruzioni e supporta l'inferenza in streaming in tempo reale su una singola GPU. Infine, introduciamo EgoEditBench, una suite di valutazione che mira alla fedeltà alle istruzioni, alla preservazione delle mani e delle interazioni, e alla stabilità temporale durante il movimento ego. Sia nei compiti di editing egocentrico che generale, EgoEdit produce risultati temporalmente stabili e fedeli alle istruzioni con latenza interattiva. Raggiunge miglioramenti evidenti sui benchmark di editing egocentrico – dove i metodi esistenti faticano – mantenendo al contempo prestazioni comparabili ai baseline più forti nei compiti di editing generale. EgoEditData ed EgoEditBench saranno resi pubblici per la comunità di ricerca. Visita il nostro sito web all'indirizzo https://snap-research.github.io/EgoEdit.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit