CLiFT : Tokens de champ lumineux compressifs pour un rendu neuronal efficace en calcul et adaptatif

papers.abstract

Cet article propose une approche de rendu neuronal qui représente une scène sous forme de "tokens de champ lumineux compressés (CLiFTs)", conservant des informations riches sur l'apparence et la géométrie de la scène. CLiFT permet un rendu efficace en termes de calcul grâce à des tokens compressés, tout en étant capable de modifier le nombre de tokens pour représenter une scène ou générer une nouvelle vue avec un seul réseau entraîné. Concrètement, étant donné un ensemble d'images, un encodeur multi-vues tokenise les images avec les poses de la caméra. Un K-means dans l'espace latent sélectionne un ensemble réduit de rayons comme centroïdes de clusters en utilisant les tokens. Le "condenseur" multi-vues compresse l'information de tous les tokens dans les tokens centroïdes pour construire les CLiFTs. Au moment du test, étant donné une vue cible et un budget de calcul (c'est-à-dire le nombre de CLiFTs), le système collecte le nombre spécifié de tokens proches et synthétise une nouvelle vue à l'aide d'un rendu adaptatif en fonction du calcul. Des expériences approfondies sur les ensembles de données RealEstate10K et DL3DV valident quantitativement et qualitativement notre approche, atteignant une réduction significative des données avec une qualité de rendu comparable et le score de rendu global le plus élevé, tout en offrant des compromis entre la taille des données, la qualité du rendu et la vitesse de rendu.

English

This paper proposes a neural rendering approach that represents a scene as "compressed light-field tokens (CLiFTs)", retaining rich appearance and geometric information of a scene. CLiFT enables compute-efficient rendering by compressed tokens, while being capable of changing the number of tokens to represent a scene or render a novel view with one trained network. Concretely, given a set of images, multi-view encoder tokenizes the images with the camera poses. Latent-space K-means selects a reduced set of rays as cluster centroids using the tokens. The multi-view ``condenser'' compresses the information of all the tokens into the centroid tokens to construct CLiFTs. At test time, given a target view and a compute budget (i.e., the number of CLiFTs), the system collects the specified number of nearby tokens and synthesizes a novel view using a compute-adaptive renderer. Extensive experiments on RealEstate10K and DL3DV datasets quantitatively and qualitatively validate our approach, achieving significant data reduction with comparable rendering quality and the highest overall rendering score, while providing trade-offs of data size, rendering quality, and rendering speed.

CLiFT : Tokens de champ lumineux compressifs pour un rendu neuronal efficace en calcul et adaptatif

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

papers.abstract

Support