ChatPaper.aiChatPaper

EgoEdit: Conjunto de Datos, Modelo de Transmisión en Tiempo Real y Punto de Referencia para la Edición de Vídeo Egocéntrico

EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

December 5, 2025
Autores: Runjia Li, Moayed Haji-Ali, Ashkan Mirzaei, Chaoyang Wang, Arpit Sahni, Ivan Skorokhodov, Aliaksandr Siarohin, Tomas Jakab, Junlin Han, Sergey Tulyakov, Philip Torr, Willi Menapace
cs.AI

Resumen

Estudiamos la edición de videos egocéntricos guiada por instrucciones para aplicaciones de realidad aumentada interactiva. Si bien los editores de video con IA recientes funcionan bien con material en tercera persona, las vistas egocéntricas presentan desafíos únicos —incluyendo rápido egomovimiento e interacciones frecuentes mano-objeto— que crean una brecha de dominio significativa. Además, los pipelines de edición offline existentes sufren de alta latencia, limitando la interacción en tiempo real. Para abordar estos problemas, presentamos un ecosistema completo para edición de video egocéntrico. Primero, construimos EgoEditData, un conjunto de datos cuidadosamente diseñado y curado manualmente específicamente para escenarios de edición egocéntrica, que presenta ricas interacciones mano-objeto mientras preserva explícitamente las manos. Segundo, desarrollamos EgoEdit, un editor de video egocéntrico que sigue instrucciones y soporta inferencia en streaming en tiempo real en una sola GPU. Finalmente, introducimos EgoEditBench, un conjunto de evaluación que se enfoca en la fidelidad a las instrucciones, preservación de manos e interacciones, y estabilidad temporal bajo egomovimiento. Tanto en tareas de edición egocéntrica como general, EgoEdit produce resultados temporalmente estables y fieles a las instrucciones con latencia interactiva. Logra mejoras claras en benchmarks de edición egocéntrica —donde los métodos existentes tienen dificultades— mientras mantiene un rendimiento comparable a las líneas base más sólidas en tareas de edición general. EgoEditData y EgoEditBench se harán públicos para la comunidad investigadora. Visite nuestro sitio web en https://snap-research.github.io/EgoEdit.
English
We study instruction-guided editing of egocentric videos for interactive AR applications. While recent AI video editors perform well on third-person footage, egocentric views present unique challenges - including rapid egomotion and frequent hand-object interactions - that create a significant domain gap. Moreover, existing offline editing pipelines suffer from high latency, limiting real-time interaction. To address these issues, we present a complete ecosystem for egocentric video editing. First, we construct EgoEditData, a carefully designed and manually curated dataset specifically designed for egocentric editing scenarios, featuring rich hand-object interactions, while explicitly preserving hands. Second, we develop EgoEdit, an instruction-following egocentric video editor that supports real-time streaming inference on a single GPU. Finally, we introduce EgoEditBench, an evaluation suite targeting instruction faithfulness, hand and interaction preservation, and temporal stability under egomotion. Across both egocentric and general editing tasks, EgoEdit produces temporally stable, instruction-faithful results with interactive latency. It achieves clear gains on egocentric editing benchmarks-where existing methods struggle-while maintaining performance comparable to the strongest baselines on general editing tasks. EgoEditData and EgoEditBench will be made public for the research community. See our website at https://snap-research.github.io/EgoEdit
PDF212December 10, 2025