EgoEdit: Conjunto de Dados, Modelo de Streaming em Tempo Real e Benchmark para Edição de Vídeo Egocêntrico
EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
December 5, 2025
Autores: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI
Resumo
Nós estudamos a edição de vídeos egocêntricos guiada por instruções para aplicações de RA interativas. Embora os editores de vídeo de IA recentes apresentem bom desempenho em filmagens de terceira pessoa, as vistas egocêntricas apresentam desafios únicos - incluindo movimento próprio rápido e interações frequentes mão-objeto - que criam uma lacuna de domínio significativa. Além disso, os pipelines de edição offline existentes sofrem com alta latência, limitando a interação em tempo real. Para resolver essas questões, apresentamos um ecossistema completo para edição de vídeo egocêntrico. Primeiro, construímos o EgoEditData, um conjunto de dados cuidadosamente projetado e curado manualmente, especificamente desenhado para cenários de edição egocêntrica, apresentando ricas interações mão-objeto, enquanto preserva explicitamente as mãos. Segundo, desenvolvemos o EgoEdit, um editor de vídeo egocêntrico que segue instruções e suporta inferência em streaming em tempo real em uma única GPU. Finalmente, introduzimos o EgoEditBench, um conjunto de avaliação focado na fidelidade à instrução, preservação das mãos e interações, e estabilidade temporal sob movimento próprio. Tanto em tarefas de edição egocêntricas quanto gerais, o EgoEdit produz resultados temporalmente estáveis e fiéis às instruções com latência interativa. Ele alcança ganhos claros em benchmarks de edição egocêntrica - onde os métodos existentes têm dificuldades - enquanto mantém um desempenho comparável aos baselines mais fortes em tarefas de edição gerais. O EgoEditData e o EgoEditBench serão disponibilizados publicamente para a comunidade de pesquisa. Veja nosso website em https://snap-research.github.io/EgoEdit.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit