NormalCrafter: 비디오에서 시간적 일관성을 갖는 노멀 맵 학습 확산 모델 기반 사전 지식 활용
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
April 15, 2025
저자: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
cs.AI
초록
표면 법선 추정은 다양한 컴퓨터 비전 애플리케이션의 초석 역할을 합니다. 정적 이미지 시나리오에 대한 수많은 연구가 진행되었지만, 비디오 기반 법선 추정에서 시간적 일관성을 보장하는 것은 여전히 큰 도전 과제로 남아 있습니다. 기존 방법에 단순히 시간적 요소를 추가하는 대신, 우리는 비디오 확산 모델의 고유한 시간적 사전 정보를 활용하는 NormalCrafter를 제안합니다. 시퀀스 전반에 걸쳐 고품질의 법선 추정을 보장하기 위해, 우리는 확산 특징을 의미론적 단서와 정렬시켜 모델이 장면의 본질적인 의미에 집중하도록 유도하는 의미론적 특징 정규화(Semantic Feature Regularization, SFR)를 제안합니다. 또한, 공간적 정확도를 유지하면서 긴 시간적 맥락을 보존하기 위해 잠재 공간과 픽셀 공간 학습을 모두 활용하는 두 단계 학습 프로토콜을 도입했습니다. 광범위한 평가를 통해 우리의 방법이 다양한 비디오에서 복잡한 디테일을 포함한 시간적으로 일관된 법선 시퀀스를 생성하는 데 있어 우수한 성능을 보임을 입증했습니다.
English
Surface normal estimation serves as a cornerstone for a spectrum of computer
vision applications. While numerous efforts have been devoted to static image
scenarios, ensuring temporal coherence in video-based normal estimation remains
a formidable challenge. Instead of merely augmenting existing methods with
temporal components, we present NormalCrafter to leverage the inherent temporal
priors of video diffusion models. To secure high-fidelity normal estimation
across sequences, we propose Semantic Feature Regularization (SFR), which
aligns diffusion features with semantic cues, encouraging the model to
concentrate on the intrinsic semantics of the scene. Moreover, we introduce a
two-stage training protocol that leverages both latent and pixel space learning
to preserve spatial accuracy while maintaining long temporal context. Extensive
evaluations demonstrate the efficacy of our method, showcasing a superior
performance in generating temporally consistent normal sequences with intricate
details from diverse videos.Summary
AI-Generated Summary