Обучение перефокусировке с помощью видео-диффузионных моделей
Learning to Refocus with Video Diffusion Models
December 22, 2025
Авторы: SaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin
cs.AI
Аннотация
Фокусировка является краеугольным камнем фотографии, однако системы автофокуса часто не могут захватить нужный объект, и пользователи нередко хотят скорректировать фокус после съемки. Мы представляем новый метод реалистичного перефокусирования после съемки с использованием видео-диффузионных моделей. Исходя из одного расфокусированного изображения, наш подход генерирует перцептивно точный фокальный стек, представленный в виде видеопоследовательности, что позволяет осуществлять интерактивную перефокусировку и открывает возможности для ряда последующих приложений. В поддержку данной работы и будущих исследований мы публикуем масштабный набор данных фокальных стеков, полученных в разнообразных реальных условиях съемки на смартфоны. Наш метод стабильно превосходит существующие подходы как по перцептивному качеству, так и по устойчивости в сложных сценариях, прокладывая путь к более продвинутым возможностям редактирования фокуса в повседневной фотографии. Код и данные доступны по адресу www.learn2refocus.github.io.
English
Focus is a cornerstone of photography, yet autofocus systems often fail to capture the intended subject, and users frequently wish to adjust focus after capture. We introduce a novel method for realistic post-capture refocusing using video diffusion models. From a single defocused image, our approach generates a perceptually accurate focal stack, represented as a video sequence, enabling interactive refocusing and unlocking a range of downstream applications. We release a large-scale focal stack dataset acquired under diverse real-world smartphone conditions to support this work and future research. Our method consistently outperforms existing approaches in both perceptual quality and robustness across challenging scenarios, paving the way for more advanced focus-editing capabilities in everyday photography. Code and data are available at www.learn2refocus.github.io