4K4D: Síntese de Visualização 4D em Tempo Real com Resolução 4K
4K4D: Real-Time 4D View Synthesis at 4K Resolution
October 17, 2023
Autores: Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou
cs.AI
Resumo
Este artigo tem como objetivo a síntese de visão em tempo real e de alta fidelidade de cenas 3D dinâmicas em resolução 4K. Recentemente, alguns métodos de síntese de visão dinâmica demonstraram qualidade de renderização impressionante. No entanto, sua velocidade ainda é limitada ao renderizar imagens de alta resolução. Para superar esse problema, propomos o 4K4D, uma representação de nuvem de pontos 4D que suporta rasterização em hardware e permite uma velocidade de renderização sem precedentes. Nossa representação é construída sobre uma grade de características 4D, de modo que os pontos são naturalmente regularizados e podem ser otimizados de forma robusta. Além disso, projetamos um novo modelo de aparência híbrido que aumenta significativamente a qualidade de renderização enquanto mantém a eficiência. Adicionalmente, desenvolvemos um algoritmo diferenciável de peeling de profundidade para aprender efetivamente o modelo proposto a partir de vídeos RGB. Experimentos mostram que nossa representação pode ser renderizada a mais de 400 FPS no conjunto de dados DNA-Rendering em resolução 1080p e a 80 FPS no conjunto de dados ENeRF-Outdoor em resolução 4K usando uma GPU RTX 4090, o que é 30 vezes mais rápido que os métodos anteriores e alcança a qualidade de renderização de última geração. Disponibilizaremos o código para garantir a reprodutibilidade.
English
This paper targets high-fidelity and real-time view synthesis of dynamic 3D
scenes at 4K resolution. Recently, some methods on dynamic view synthesis have
shown impressive rendering quality. However, their speed is still limited when
rendering high-resolution images. To overcome this problem, we propose 4K4D, a
4D point cloud representation that supports hardware rasterization and enables
unprecedented rendering speed. Our representation is built on a 4D feature grid
so that the points are naturally regularized and can be robustly optimized. In
addition, we design a novel hybrid appearance model that significantly boosts
the rendering quality while preserving efficiency. Moreover, we develop a
differentiable depth peeling algorithm to effectively learn the proposed model
from RGB videos. Experiments show that our representation can be rendered at
over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the
ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x
faster than previous methods and achieves the state-of-the-art rendering
quality. We will release the code for reproducibility.