ChatPaper.aiChatPaper

EgoEdit : Ensemble de données, modèle de streaming en temps réel et benchmark pour l'édition vidéo égocentrique

EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

December 5, 2025
papers.authors: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI

papers.abstract

Nous étudions l'édition de vidéos égocentriques guidée par instructions pour des applications de RA interactives. Bien que les éditeurs vidéo IA récents obtiennent de bons résultats sur des séquences à la troisième personne, les vues égocentriques présentent des défis uniques - incluant les mouvements égocentriques rapides et les interactions fréquentes main-objet - qui créent un écart de domaine significatif. De plus, les pipelines d'édition hors ligne existants souffrent d'une latence élevée, limitant l'interaction en temps réel. Pour résoudre ces problèmes, nous présentons un écosystème complet pour l'édition vidéo égocentrique. Premièrement, nous construisons EgoEditData, un ensemble de données soigneusement conçu et manuellement organisé spécifiquement conçu pour les scénarios d'édition égocentrique, comportant de riches interactions main-objet tout en préservant explicitement les mains. Deuxièmement, nous développons EgoEdit, un éditeur vidéo égocentrique suivant les instructions qui prend en charge l'inférence en flux continu en temps réel sur un seul GPU. Enfin, nous introduisons EgoEditBench, une suite d'évaluation ciblant la fidélité aux instructions, la préservation des mains et des interactions, et la stabilité temporelle sous mouvement égocentrique. Sur les tâches d'édition égocentriques et générales, EgoEdit produit des résultats temporellement stables et fidèles aux instructions avec une latence interactive. Il obtient des gains nets sur les benchmarks d'édition égocentrique - où les méthodes existantes peinent - tout en maintenant des performances comparables aux méthodes de référence les plus solides sur les tâches d'édition générales. EgoEditData et EgoEditBench seront rendus publics pour la communauté scientifique. Consultez notre site web à l'adresse https://snap-research.github.io/EgoEdit.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit
PDF212December 10, 2025