ChatPaper.aiChatPaper

NormalCrafter : Apprentissage de normales temporellement cohérentes à partir de vidéo A priori de diffusion

NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors

April 15, 2025
Auteurs: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
cs.AI

Résumé

L'estimation des normales de surface constitue une pierre angulaire pour un large éventail d'applications en vision par ordinateur. Bien que de nombreux efforts aient été consacrés aux scénarios d'images statiques, assurer la cohérence temporelle dans l'estimation des normales basée sur des vidéos reste un défi de taille. Plutôt que de simplement enrichir les méthodes existantes avec des composantes temporelles, nous présentons NormalCrafter pour exploiter les a priori temporels inhérents aux modèles de diffusion vidéo. Pour garantir une estimation des normales de haute fidélité à travers les séquences, nous proposons la Régularisation des Caractéristiques Sémantiques (SFR), qui aligne les caractéristiques de diffusion avec les indices sémantiques, encourageant ainsi le modèle à se concentrer sur la sémantique intrinsèque de la scène. De plus, nous introduisons un protocole d'entraînement en deux étapes qui exploite à la fois l'apprentissage dans l'espace latent et dans l'espace pixel pour préserver la précision spatiale tout en maintenant un contexte temporel étendu. Des évaluations approfondies démontrent l'efficacité de notre méthode, mettant en évidence une performance supérieure dans la génération de séquences de normales temporellement cohérentes avec des détails complexes à partir de vidéos diverses.
English
Surface normal estimation serves as a cornerstone for a spectrum of computer vision applications. While numerous efforts have been devoted to static image scenarios, ensuring temporal coherence in video-based normal estimation remains a formidable challenge. Instead of merely augmenting existing methods with temporal components, we present NormalCrafter to leverage the inherent temporal priors of video diffusion models. To secure high-fidelity normal estimation across sequences, we propose Semantic Feature Regularization (SFR), which aligns diffusion features with semantic cues, encouraging the model to concentrate on the intrinsic semantics of the scene. Moreover, we introduce a two-stage training protocol that leverages both latent and pixel space learning to preserve spatial accuracy while maintaining long temporal context. Extensive evaluations demonstrate the efficacy of our method, showcasing a superior performance in generating temporally consistent normal sequences with intricate details from diverse videos.

Summary

AI-Generated Summary

PDF172April 16, 2025