Poses dinámicas de cámara y dónde encontrarlas

Resumen

La anotación de poses de cámara en videos dinámicos de Internet a gran escala es crucial para avanzar en campos como la generación de videos realistas y la simulación. Sin embargo, recopilar un conjunto de datos de este tipo es difícil, ya que la mayoría de los videos de Internet no son adecuados para la estimación de poses. Además, anotar videos dinámicos de Internet presenta desafíos significativos incluso para los métodos más avanzados. En este artículo, presentamos DynPose-100K, un conjunto de datos a gran escala de videos dinámicos de Internet anotados con poses de cámara. Nuestra canalización de recopilación aborda el filtrado utilizando un conjunto cuidadosamente combinado de modelos específicos para la tarea y generalistas. Para la estimación de poses, combinamos las últimas técnicas de seguimiento de puntos, enmascaramiento dinámico y estructura a partir del movimiento, logrando mejoras sobre los enfoques más avanzados. Nuestro análisis y experimentos demuestran que DynPose-100K es tanto de gran escala como diverso en varios atributos clave, abriendo caminos para avances en diversas aplicaciones posteriores.

English

Annotating camera poses on dynamic Internet videos at scale is critical for advancing fields like realistic video generation and simulation. However, collecting such a dataset is difficult, as most Internet videos are unsuitable for pose estimation. Furthermore, annotating dynamic Internet videos present significant challenges even for state-of-theart methods. In this paper, we introduce DynPose-100K, a large-scale dataset of dynamic Internet videos annotated with camera poses. Our collection pipeline addresses filtering using a carefully combined set of task-specific and generalist models. For pose estimation, we combine the latest techniques of point tracking, dynamic masking, and structure-from-motion to achieve improvements over the state-of-the-art approaches. Our analysis and experiments demonstrate that DynPose-100K is both large-scale and diverse across several key attributes, opening up avenues for advancements in various downstream applications.

Poses dinámicas de cámara y dónde encontrarlas

Dynamic Camera Poses and Where to Find Them

Resumen

Support