비디오 확산 모델을 활용한 리포커싱 학습
Learning to Refocus with Video Diffusion Models
December 22, 2025
저자: SaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin
cs.AI
초록
초점은 사진 촬영의 핵심 요소이지만, 자동 초점 시스템은 종종 의도한 피사체를 제대로 잡지 못하며 사용자는 촬영 후에 초점을 조정하고 싶어 하는 경우가 많습니다. 본 연구에서는 비디오 확산 모델을 활용한 현실적인 촬영 후 초점 재조정 방법을 제안합니다. 단일 초점 흐린 이미지에서 시작하여 우리의 접근법은 비디오 시퀀스로 표현되는 지각적으로 정확한 초점 스택을 생성하여 상호작용형 초점 재조정을 가능하게 하고 다양한 다운스트림 응용 프로그램을 구현합니다. 본 연구 및 향후 연구를 지원하기 위해 다양한 실제 스마트폰 환경에서 취득한 대규모 초점 스택 데이터셋을 공개합니다. 우리의 방법은 까다로운 시나리오에서도 지각적 품질과 강건성 모두에서 기존 접근법을 꾸준히 능가하며, 일상적인 사진 촬영에서 더욱 발전된 초점 편집 기능의 길을 열어줍니다. 코드와 데이터는 www.learn2refocus.github.io에서 확인할 수 있습니다.
English
Focus is a cornerstone of photography, yet autofocus systems often fail to capture the intended subject, and users frequently wish to adjust focus after capture. We introduce a novel method for realistic post-capture refocusing using video diffusion models. From a single defocused image, our approach generates a perceptually accurate focal stack, represented as a video sequence, enabling interactive refocusing and unlocking a range of downstream applications. We release a large-scale focal stack dataset acquired under diverse real-world smartphone conditions to support this work and future research. Our method consistently outperforms existing approaches in both perceptual quality and robustness across challenging scenarios, paving the way for more advanced focus-editing capabilities in everyday photography. Code and data are available at www.learn2refocus.github.io