Imparare a Rifocalizzare con i Modelli di Diffusione Video
Learning to Refocus with Video Diffusion Models
December 22, 2025
Autori: SaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin
cs.AI
Abstract
La messa a fuoco è un pilastro fondamentale della fotografia, eppure i sistemi autofocus spesso non riescono a catturare il soggetto desiderato, e gli utenti desiderano frequentemente regolare la messa a fuoco dopo lo scatto. Introduciamo un metodo innovativo per una realistica rifocalizzazione post-acquisizione che utilizza modelli di diffusione video. Partendo da una singola immagine sfocata, il nostro approccio genera una pila focale percettivamente accurata, rappresentata come una sequenza video, consentendo una rifocalizzazione interattiva e sbloccando una serie di applicazioni successive. Rilasciamo un ampio dataset di pile focali acquisito in varie condizioni reali con smartphone per supportare questo lavoro e la ricerca futura. Il nostro metodo supera costantemente gli approcci esistenti sia nella qualità percettiva che nella robustezza attraverso scenari complessi, aprendo la strada a capacità di editing della messa a fuoco più avanzate nella fotografia quotidiana. Codice e dati sono disponibili su www.learn2refocus.github.io.
English
Focus is a cornerstone of photography, yet autofocus systems often fail to capture the intended subject, and users frequently wish to adjust focus after capture. We introduce a novel method for realistic post-capture refocusing using video diffusion models. From a single defocused image, our approach generates a perceptually accurate focal stack, represented as a video sequence, enabling interactive refocusing and unlocking a range of downstream applications. We release a large-scale focal stack dataset acquired under diverse real-world smartphone conditions to support this work and future research. Our method consistently outperforms existing approaches in both perceptual quality and robustness across challenging scenarios, paving the way for more advanced focus-editing capabilities in everyday photography. Code and data are available at www.learn2refocus.github.io