ChatPaper.aiChatPaper

EgoEdit: Dataset, Real-Time Streaming Model en Benchmark voor Egocentrische Videobewerking

EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

December 5, 2025
Auteurs: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI

Samenvatting

Wij bestuderen instructiegestuurd bewerken van egocentrische video's voor interactieve AR-toepassingen. Hoewel recente AI-videobewerkers goede prestaties leveren op footage vanuit derdepersoonsperspectief, vormen egocentrische beelden unieke uitdagingen - waaronder snelle egomotie en frequente hand-objectinteracties - die een aanzienlijk domeingat creëren. Bovendien lijden bestaande offline bewerkingspijplijnen onder hoge latentie, wat real-time interactie beperkt. Om deze problemen aan te pakken, presenteren wij een compleet ecosysteem voor egocentrische videobewerking. Ten eerste construeren wij EgoEditData, een zorgvuldig ontworpen en handmatig samengestelde dataset specifiek ontwikkeld voor egocentrische bewerkingsscenario's, met rijke hand-objectinteracties waarbij handen expliciet behouden blijven. Ten tweede ontwikkelen wij EgoEdit, een instructievolgende egocentrische videobewerker die real-time streaming inferentie ondersteunt op een enkele GPU. Tot slot introduceren wij EgoEditBench, een evaluatiesuite gericht op instructiegetrouwheid, behoud van handen en interacties, en temporele stabiliteit onder egomotie. EgoEdit produceert voor zowel egocentrische als algemene bewerkingstaken temporeel stabiele, instructiegetrouwe resultaten met interactieve latentie. Het behaalt duidelijke verbeteringen op egocentrische bewerkingsbenchmarks - waar bestaande methoden moeite mee hebben - terwijl het prestaties handhaaft die vergelijkbaar zijn met de sterkste baselines op algemene bewerkingstaken. EgoEditData en EgoEditBench worden openbaar gemaakt voor de onderzoeksgemeenschap. Zie onze website op https://snap-research.github.io/EgoEdit.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit
PDF212December 10, 2025