CLiFT : Tokens de champ lumineux compressifs pour un rendu neuronal efficace en calcul et adaptatif
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering
July 11, 2025
papers.authors: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI
papers.abstract
Cet article propose une approche de rendu neuronal qui représente une scène sous forme de "tokens de champ lumineux compressés (CLiFTs)", conservant des informations riches sur l'apparence et la géométrie de la scène. CLiFT permet un rendu efficace en termes de calcul grâce à des tokens compressés, tout en étant capable de modifier le nombre de tokens pour représenter une scène ou générer une nouvelle vue avec un seul réseau entraîné. Concrètement, étant donné un ensemble d'images, un encodeur multi-vues tokenise les images avec les poses de la caméra. Un K-means dans l'espace latent sélectionne un ensemble réduit de rayons comme centroïdes de clusters en utilisant les tokens. Le "condenseur" multi-vues compresse l'information de tous les tokens dans les tokens centroïdes pour construire les CLiFTs. Au moment du test, étant donné une vue cible et un budget de calcul (c'est-à-dire le nombre de CLiFTs), le système collecte le nombre spécifié de tokens proches et synthétise une nouvelle vue à l'aide d'un rendu adaptatif en fonction du calcul. Des expériences approfondies sur les ensembles de données RealEstate10K et DL3DV valident quantitativement et qualitativement notre approche, atteignant une réduction significative des données avec une qualité de rendu comparable et le score de rendu global le plus élevé, tout en offrant des compromis entre la taille des données, la qualité du rendu et la vitesse de rendu.
English
This paper proposes a neural rendering approach that represents a scene as
"compressed light-field tokens (CLiFTs)", retaining rich appearance and
geometric information of a scene. CLiFT enables compute-efficient rendering by
compressed tokens, while being capable of changing the number of tokens to
represent a scene or render a novel view with one trained network. Concretely,
given a set of images, multi-view encoder tokenizes the images with the camera
poses. Latent-space K-means selects a reduced set of rays as cluster centroids
using the tokens. The multi-view ``condenser'' compresses the information of
all the tokens into the centroid tokens to construct CLiFTs. At test time,
given a target view and a compute budget (i.e., the number of CLiFTs), the
system collects the specified number of nearby tokens and synthesizes a novel
view using a compute-adaptive renderer. Extensive experiments on RealEstate10K
and DL3DV datasets quantitatively and qualitatively validate our approach,
achieving significant data reduction with comparable rendering quality and the
highest overall rendering score, while providing trade-offs of data size,
rendering quality, and rendering speed.