Aprendendo a Reenquadrar com Modelos de Difusão de Vídeo

Resumo

O foco é um pilar fundamental da fotografia, contudo, os sistemas de autofoco frequentemente falham em capturar o sujeito pretendido, e os utilizadores desejam com frequência ajustar o foco após a captura. Apresentamos um método novo para reenfoque realista pós-captura utilizando modelos de difusão de vídeo. A partir de uma única imagem desfocada, a nossa abordagem gera uma pilha focal perceptualmente precisa, representada como uma sequência de vídeo, permitindo reenfoque interativo e desbloqueando uma gama de aplicações subsequentes. Disponibilizamos um conjunto de dados de pilha focal em larga escala, adquirido em diversas condições do mundo real com smartphones, para apoiar este trabalho e investigação futura. O nosso método supera consistentemente as abordagens existentes, tanto em qualidade perceptual como em robustez, em cenários desafiadores, abrindo caminho para capacidades de edição de foco mais avançadas na fotografia do dia a dia. O código e os dados estão disponíveis em www.learn2refocus.github.io.

English

Focus is a cornerstone of photography, yet autofocus systems often fail to capture the intended subject, and users frequently wish to adjust focus after capture. We introduce a novel method for realistic post-capture refocusing using video diffusion models. From a single defocused image, our approach generates a perceptually accurate focal stack, represented as a video sequence, enabling interactive refocusing and unlocking a range of downstream applications. We release a large-scale focal stack dataset acquired under diverse real-world smartphone conditions to support this work and future research. Our method consistently outperforms existing approaches in both perceptual quality and robustness across challenging scenarios, paving the way for more advanced focus-editing capabilities in everyday photography. Code and data are available at www.learn2refocus.github.io