NormalCrafter: Aprendizaje de normales temporalmente consistentes a partir de vídeo mediante priors de difusión
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
April 15, 2025
Autores: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
cs.AI
Resumen
La estimación de normales de superficie sirve como piedra angular para un espectro de aplicaciones en visión por computadora. Si bien se han dedicado numerosos esfuerzos a escenarios de imágenes estáticas, garantizar la coherencia temporal en la estimación de normales basada en videos sigue siendo un desafío formidable. En lugar de simplemente aumentar los métodos existentes con componentes temporales, presentamos NormalCrafter para aprovechar los priors temporales inherentes de los modelos de difusión de video. Para asegurar una estimación de normales de alta fidelidad en secuencias, proponemos la Regularización de Características Semánticas (SFR, por sus siglas en inglés), que alinea las características de difusión con pistas semánticas, incentivando al modelo a concentrarse en la semántica intrínseca de la escena. Además, introducimos un protocolo de entrenamiento en dos etapas que aprovecha el aprendizaje tanto en el espacio latente como en el espacio de píxeles para preservar la precisión espacial mientras se mantiene un contexto temporal prolongado. Evaluaciones exhaustivas demuestran la eficacia de nuestro método, mostrando un rendimiento superior en la generación de secuencias de normales temporalmente consistentes con detalles intrincados a partir de diversos videos.
English
Surface normal estimation serves as a cornerstone for a spectrum of computer
vision applications. While numerous efforts have been devoted to static image
scenarios, ensuring temporal coherence in video-based normal estimation remains
a formidable challenge. Instead of merely augmenting existing methods with
temporal components, we present NormalCrafter to leverage the inherent temporal
priors of video diffusion models. To secure high-fidelity normal estimation
across sequences, we propose Semantic Feature Regularization (SFR), which
aligns diffusion features with semantic cues, encouraging the model to
concentrate on the intrinsic semantics of the scene. Moreover, we introduce a
two-stage training protocol that leverages both latent and pixel space learning
to preserve spatial accuracy while maintaining long temporal context. Extensive
evaluations demonstrate the efficacy of our method, showcasing a superior
performance in generating temporally consistent normal sequences with intricate
details from diverse videos.Summary
AI-Generated Summary