CLiFT: Token Compressivi del Campo Luminoso per il Rendering Neurale Efficiente e Adattivo
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering
July 11, 2025
Autori: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI
Abstract
Questo articolo propone un approccio di rendering neurale che rappresenta una scena come "token di campo luminoso compressi (CLiFTs)", mantenendo ricche informazioni sull'aspetto e sulla geometria della scena. CLiFT consente un rendering efficiente dal punto di vista computazionale attraverso token compressi, pur essendo in grado di modificare il numero di token per rappresentare una scena o renderizzare una nuova vista con una singola rete addestrata. Nello specifico, dato un insieme di immagini, un encoder multi-vista tokenizza le immagini insieme alle pose della telecamera. Il K-means nello spazio latente seleziona un insieme ridotto di raggi come centroidi dei cluster utilizzando i token. Il "condensatore" multi-vista comprime le informazioni di tutti i token nei token centroidali per costruire i CLiFTs. Al momento del test, data una vista target e un budget computazionale (ovvero il numero di CLiFTs), il sistema raccoglie il numero specificato di token vicini e sintetizza una nuova vista utilizzando un renderer adattivo dal punto di vista computazionale. Esperimenti estensivi sui dataset RealEstate10K e DL3DV convalidano quantitativamente e qualitativamente il nostro approccio, ottenendo una significativa riduzione dei dati con una qualità di rendering comparabile e il punteggio complessivo di rendering più alto, offrendo al contempo compromessi tra dimensione dei dati, qualità di rendering e velocità di rendering.
English
This paper proposes a neural rendering approach that represents a scene as
"compressed light-field tokens (CLiFTs)", retaining rich appearance and
geometric information of a scene. CLiFT enables compute-efficient rendering by
compressed tokens, while being capable of changing the number of tokens to
represent a scene or render a novel view with one trained network. Concretely,
given a set of images, multi-view encoder tokenizes the images with the camera
poses. Latent-space K-means selects a reduced set of rays as cluster centroids
using the tokens. The multi-view ``condenser'' compresses the information of
all the tokens into the centroid tokens to construct CLiFTs. At test time,
given a target view and a compute budget (i.e., the number of CLiFTs), the
system collects the specified number of nearby tokens and synthesizes a novel
view using a compute-adaptive renderer. Extensive experiments on RealEstate10K
and DL3DV datasets quantitatively and qualitatively validate our approach,
achieving significant data reduction with comparable rendering quality and the
highest overall rendering score, while providing trade-offs of data size,
rendering quality, and rendering speed.