4K4D : Synthèse en temps réel de vues 4D à une résolution 4K
4K4D: Real-Time 4D View Synthesis at 4K Resolution
October 17, 2023
Auteurs: Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou
cs.AI
Résumé
Cet article vise la synthèse d'images en temps réel et haute fidélité de scènes 3D dynamiques en résolution 4K. Récemment, certaines méthodes de synthèse de vues dynamiques ont démontré une qualité de rendu impressionnante. Cependant, leur vitesse reste limitée lors du rendu d'images haute résolution. Pour résoudre ce problème, nous proposons 4K4D, une représentation de nuage de points 4D qui prend en charge la rastérisation matérielle et permet une vitesse de rendu sans précédent. Notre représentation est construite sur une grille de caractéristiques 4D, ce qui permet une régularisation naturelle des points et une optimisation robuste. De plus, nous concevons un nouveau modèle d'apparence hybride qui améliore significativement la qualité du rendu tout en préservant l'efficacité. Par ailleurs, nous développons un algorithme de pelage de profondeur différentiable pour apprendre efficacement le modèle proposé à partir de vidéos RGB. Les expériences montrent que notre représentation peut être rendue à plus de 400 FPS sur le jeu de données DNA-Rendering en résolution 1080p et à 80 FPS sur le jeu de données ENeRF-Outdoor en résolution 4K en utilisant une GPU RTX 4090, ce qui est 30 fois plus rapide que les méthodes précédentes et atteint la qualité de rendu de pointe. Nous publierons le code pour assurer la reproductibilité.
English
This paper targets high-fidelity and real-time view synthesis of dynamic 3D
scenes at 4K resolution. Recently, some methods on dynamic view synthesis have
shown impressive rendering quality. However, their speed is still limited when
rendering high-resolution images. To overcome this problem, we propose 4K4D, a
4D point cloud representation that supports hardware rasterization and enables
unprecedented rendering speed. Our representation is built on a 4D feature grid
so that the points are naturally regularized and can be robustly optimized. In
addition, we design a novel hybrid appearance model that significantly boosts
the rendering quality while preserving efficiency. Moreover, we develop a
differentiable depth peeling algorithm to effectively learn the proposed model
from RGB videos. Experiments show that our representation can be rendered at
over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the
ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x
faster than previous methods and achieves the state-of-the-art rendering
quality. We will release the code for reproducibility.