OmnimatteRF : Omnimatte robust avec modélisation 3D de l'arrière-plan
OmnimatteRF: Robust Omnimatte with 3D Background Modeling
September 14, 2023
Auteurs: Geng Lin, Chen Gao, Jia-Bin Huang, Changil Kim, Yipeng Wang, Matthias Zwicker, Ayush Saraf
cs.AI
Résumé
Le matting vidéo trouve des applications variées, allant de l'ajout d'effets visuels intéressants à des films capturés de manière informelle à l'assistance des professionnels de la production vidéo. Le matting avec des effets associés tels que les ombres et les réflexions a également suscité un intérêt croissant dans la recherche, et des méthodes comme Omnimatte ont été proposées pour séparer les objets dynamiques d'intérêt au premier plan en couches distinctes. Cependant, les travaux antérieurs représentent les arrière-plans vidéo sous forme de couches d'images 2D, limitant ainsi leur capacité à exprimer des scènes plus complexes, ce qui entrave leur application à des vidéos du monde réel. Dans cet article, nous proposons une nouvelle méthode de matting vidéo, OmnimatteRF, qui combine des couches dynamiques 2D au premier plan et un modèle d'arrière-plan 3D. Les couches 2D préservent les détails des sujets, tandis que l'arrière-plan 3D reconstruit de manière robuste les scènes dans les vidéos du monde réel. Des expériences approfondies démontrent que notre méthode reconstruit les scènes avec une meilleure qualité sur diverses vidéos.
English
Video matting has broad applications, from adding interesting effects to
casually captured movies to assisting video production professionals. Matting
with associated effects such as shadows and reflections has also attracted
increasing research activity, and methods like Omnimatte have been proposed to
separate dynamic foreground objects of interest into their own layers. However,
prior works represent video backgrounds as 2D image layers, limiting their
capacity to express more complicated scenes, thus hindering application to
real-world videos. In this paper, we propose a novel video matting method,
OmnimatteRF, that combines dynamic 2D foreground layers and a 3D background
model. The 2D layers preserve the details of the subjects, while the 3D
background robustly reconstructs scenes in real-world videos. Extensive
experiments demonstrate that our method reconstructs scenes with better quality
on various videos.