NormalCrafter: Обучение временно согласованных нормалей на основе видео с использованием диффузионных априорных моделей
NormalCrafter: Learning Temporally Consistent Normals from Video Diffusion Priors
April 15, 2025
Авторы: Yanrui Bin, Wenbo Hu, Haoyuan Wang, Xinya Chen, Bing Wang
cs.AI
Аннотация
Оценка нормалей поверхности является краеугольным камнем для широкого спектра задач компьютерного зрения. Хотя значительные усилия были направлены на обработку статических изображений, обеспечение временной согласованности в оценке нормалей на основе видео остается серьезной проблемой. Вместо простого дополнения существующих методов временными компонентами мы представляем NormalCrafter, который использует внутренние временные априорные знания моделей диффузии видео. Для обеспечения высокоточной оценки нормалей в последовательностях мы предлагаем семантическую регуляризацию признаков (Semantic Feature Regularization, SFR), которая согласует признаки диффузии с семантическими подсказками, побуждая модель сосредоточиться на внутренней семантике сцены. Кроме того, мы вводим двухэтапный протокол обучения, который использует как латентное, так и пиксельное пространство для сохранения пространственной точности при поддержании длительного временного контекста. Многочисленные эксперименты демонстрируют эффективность нашего метода, показывая превосходные результаты в генерации временно согласованных последовательностей нормалей с детализированными данными из разнообразных видео.
English
Surface normal estimation serves as a cornerstone for a spectrum of computer
vision applications. While numerous efforts have been devoted to static image
scenarios, ensuring temporal coherence in video-based normal estimation remains
a formidable challenge. Instead of merely augmenting existing methods with
temporal components, we present NormalCrafter to leverage the inherent temporal
priors of video diffusion models. To secure high-fidelity normal estimation
across sequences, we propose Semantic Feature Regularization (SFR), which
aligns diffusion features with semantic cues, encouraging the model to
concentrate on the intrinsic semantics of the scene. Moreover, we introduce a
two-stage training protocol that leverages both latent and pixel space learning
to preserve spatial accuracy while maintaining long temporal context. Extensive
evaluations demonstrate the efficacy of our method, showcasing a superior
performance in generating temporally consistent normal sequences with intricate
details from diverse videos.Summary
AI-Generated Summary