EgoEdit: Datensatz, Echtzeit-Streaming-Modell und Benchmark für egocentrische Videobearbeitung
EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
December 5, 2025
papers.authors: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI
papers.abstract
Wir untersuchen die befehlsgesteuerte Bearbeitung von egozentrischen Videos für interaktive AR-Anwendungen. Während aktuelle KI-Videoeditoren bei Aufnahmen aus der dritten Person gute Ergebnisse liefern, stellen egozentrische Perspektiven einzigartige Herausforderungen dar – darunter schnelle Eigenbewegung und häufige Hand-Objekt-Interaktionen –, die eine erhebliche Domänenlücke verursachen. Darüber hinaus leiden bestehende Offline-Bearbeitungspipelines unter hoher Latenz, was Echtzeitinteraktionen einschränkt. Um diese Probleme zu lösen, präsentieren wir ein komplettes Ökosystem für die egozentrische Videobearbeitung. Erstens erstellen wir EgoEditData, einen sorgfältig konzipierten und manuell kuratierten Datensatz, der speziell für egozentrische Bearbeitungsszenarien mit umfangreichen Hand-Objekt-Interaktionen entwickelt wurde und dabei Hände explizit erhält. Zweitens entwickeln wir EgoEdit, einen befehlsfolgenden egozentrischen Videoeditor, der Echtzeit-Streaming-Inferenz auf einer einzelnen GPU unterstützt. Drittens führen wir EgoEditBench ein, eine Evaluierungssuite, die Befehls-Treue, Hand- und Interaktionserhaltung sowie zeitliche Stabilität unter Eigenbewegung bewertet. Sowohl bei egozentrischen als auch allgemeinen Bearbeitungsaufgaben erzielt EgoEdit zeitlich stabile, befehlstreue Ergebnisse mit interaktiver Latenz. Es erzielt deutliche Verbesserungen bei egozentrischen Bearbeitungs-Benchmarks – bei denen bestehende Methoden Schwierigkeiten haben – und behält dabei eine mit den stärksten Baseline-Methoden vergleichbare Leistung bei allgemeinen Bearbeitungsaufgaben bei. EgoEditData und EgoEditBench werden der Forschungsgemeinschaft öffentlich zugänglich gemacht. Weitere Informationen finden Sie auf unserer Website unter https://snap-research.github.io/EgoEdit.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit