NormalCrafter: Het leren van temporeel consistente normalen vanuit video met diffusieprioriteiten
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
April 15, 2025
Auteurs: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
cs.AI
Samenvatting
Oppervlaktenormaalschatting vormt een hoeksteen voor een breed scala aan computervisietoepassingen. Hoewel veel inspanningen zijn gericht op statische beeldscenario's, blijft het waarborgen van temporele coherentie in video-gebaseerde normaalschatting een aanzienlijke uitdaging. In plaats van simpelweg bestaande methoden aan te vullen met temporele componenten, presenteren we NormalCrafter om gebruik te maken van de inherente temporele voorkennis van videodiffusiemodellen. Om hoogwaardige normaalschatting over sequenties te garanderen, stellen we Semantische Feature Regularisatie (SFR) voor, die diffusiekenmerken uitlijnt met semantische aanwijzingen, waardoor het model wordt aangemoedigd zich te concentreren op de intrinsieke semantiek van de scène. Bovendien introduceren we een tweefasen trainingsprotocol dat zowel latent als pixelruimte leren benut om ruimtelijke nauwkeurigheid te behouden terwijl langdurige temporele context wordt gehandhaafd. Uitgebreide evaluaties tonen de effectiviteit van onze methode aan, waarbij een superieure prestaties wordt getoond in het genereren van temporeel consistente normaalsequenties met gedetailleerde details uit diverse video's.
English
Surface normal estimation serves as a cornerstone for a spectrum of computer
vision applications. While numerous efforts have been devoted to static image
scenarios, ensuring temporal coherence in video-based normal estimation remains
a formidable challenge. Instead of merely augmenting existing methods with
temporal components, we present NormalCrafter to leverage the inherent temporal
priors of video diffusion models. To secure high-fidelity normal estimation
across sequences, we propose Semantic Feature Regularization (SFR), which
aligns diffusion features with semantic cues, encouraging the model to
concentrate on the intrinsic semantics of the scene. Moreover, we introduce a
two-stage training protocol that leverages both latent and pixel space learning
to preserve spatial accuracy while maintaining long temporal context. Extensive
evaluations demonstrate the efficacy of our method, showcasing a superior
performance in generating temporally consistent normal sequences with intricate
details from diverse videos.Summary
AI-Generated Summary