ChatPaper.aiChatPaper

ビデオ拡散モデルによるリフォーカス学習

Learning to Refocus with Video Diffusion Models

December 22, 2025
著者: SaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin
cs.AI

要旨

焦点は写真撮影の基本要素であるが、オートフォーカスシステムは被写体を意図通りに捉えられないことが多く、ユーザーは撮影後に焦点を調整したいと頻繁に望む。本論文では、ビデオ拡散モデルを用いた写真的に自然なポストキャプチャ焦点調節の新手法を提案する。単一のボケ画像から、知覚的に正確な焦点合成(ビデオシーケンスとして表現)を生成し、インタラクティブな焦点再調整を可能とするとともに、様々な下流応用を開拓する。本研究および将来の研究を支援するため、多様な実世界のスマートフォン条件下で取得した大規模焦点合成データセットを公開する。提案手法は、困難なシナリオにおいても知覚品質とロバスト性の両面で既存手法を一貫して上回り、日常写真におけるより高度な焦点編集技術への道を開くものである。コードとデータは www.learn2refocus.github.io で公開されている。
English
Focus is a cornerstone of photography, yet autofocus systems often fail to capture the intended subject, and users frequently wish to adjust focus after capture. We introduce a novel method for realistic post-capture refocusing using video diffusion models. From a single defocused image, our approach generates a perceptually accurate focal stack, represented as a video sequence, enabling interactive refocusing and unlocking a range of downstream applications. We release a large-scale focal stack dataset acquired under diverse real-world smartphone conditions to support this work and future research. Our method consistently outperforms existing approaches in both perceptual quality and robustness across challenging scenarios, paving the way for more advanced focus-editing capabilities in everyday photography. Code and data are available at www.learn2refocus.github.io
PDF01December 25, 2025