4K4D: Síntesis en tiempo real de vistas 4D en resolución 4K

Resumen

Este artículo se enfoca en la síntesis de vistas en tiempo real y alta fidelidad de escenas 3D dinámicas en resolución 4K. Recientemente, algunos métodos para la síntesis de vistas dinámicas han mostrado una calidad de renderizado impresionante. Sin embargo, su velocidad sigue siendo limitada al renderizar imágenes de alta resolución. Para superar este problema, proponemos 4K4D, una representación de nube de puntos 4D que admite rasterización por hardware y permite una velocidad de renderizado sin precedentes. Nuestra representación se basa en una cuadrícula de características 4D, de modo que los puntos están naturalmente regularizados y pueden optimizarse de manera robusta. Además, diseñamos un novedoso modelo híbrido de apariencia que mejora significativamente la calidad del renderizado mientras mantiene la eficiencia. Asimismo, desarrollamos un algoritmo diferenciable de pelado de profundidad para aprender efectivamente el modelo propuesto a partir de videos RGB. Los experimentos muestran que nuestra representación puede renderizarse a más de 400 FPS en el conjunto de datos DNA-Rendering en resolución 1080p y a 80 FPS en el conjunto de datos ENeRF-Outdoor en resolución 4K utilizando una GPU RTX 4090, lo cual es 30 veces más rápido que los métodos anteriores y alcanza la calidad de renderizado más avanzada. Liberaremos el código para garantizar la reproducibilidad.

English

This paper targets high-fidelity and real-time view synthesis of dynamic 3D scenes at 4K resolution. Recently, some methods on dynamic view synthesis have shown impressive rendering quality. However, their speed is still limited when rendering high-resolution images. To overcome this problem, we propose 4K4D, a 4D point cloud representation that supports hardware rasterization and enables unprecedented rendering speed. Our representation is built on a 4D feature grid so that the points are naturally regularized and can be robustly optimized. In addition, we design a novel hybrid appearance model that significantly boosts the rendering quality while preserving efficiency. Moreover, we develop a differentiable depth peeling algorithm to effectively learn the proposed model from RGB videos. Experiments show that our representation can be rendered at over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x faster than previous methods and achieves the state-of-the-art rendering quality. We will release the code for reproducibility.

4K4D: Síntesis en tiempo real de vistas 4D en resolución 4K

4K4D: Real-Time 4D View Synthesis at 4K Resolution

Resumen

Support