CLiFT: Tokens Compresivos de Campo de Luz para Renderizado Neural Eficiente en Cómputo y Adaptativo
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering
July 11, 2025
Autores: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI
Resumen
Este artículo propone un enfoque de renderizado neuronal que representa una escena como "tokens de campo de luz comprimidos (CLiFTs)", conservando información rica de apariencia y geometría de la escena. CLiFT permite un renderizado eficiente en términos de cómputo mediante tokens comprimidos, al mismo tiempo que es capaz de cambiar el número de tokens para representar una escena o renderizar una nueva vista con una red entrenada. Concretamente, dado un conjunto de imágenes, un codificador multivista tokeniza las imágenes junto con las poses de la cámara. Un K-means en el espacio latente selecciona un conjunto reducido de rayos como centroides de clúster utilizando los tokens. El "condensador" multivista comprime la información de todos los tokens en los tokens centroides para construir los CLiFTs. En el momento de prueba, dada una vista objetivo y un presupuesto de cómputo (es decir, el número de CLiFTs), el sistema recopila el número especificado de tokens cercanos y sintetiza una nueva vista utilizando un renderizador adaptativo al cómputo. Experimentos extensivos en los conjuntos de datos RealEstate10K y DL3DV validan cuantitativa y cualitativamente nuestro enfoque, logrando una reducción significativa de datos con una calidad de renderizado comparable y la puntuación general de renderizado más alta, al mismo tiempo que ofrece compensaciones entre el tamaño de los datos, la calidad del renderizado y la velocidad de renderizado.
English
This paper proposes a neural rendering approach that represents a scene as
"compressed light-field tokens (CLiFTs)", retaining rich appearance and
geometric information of a scene. CLiFT enables compute-efficient rendering by
compressed tokens, while being capable of changing the number of tokens to
represent a scene or render a novel view with one trained network. Concretely,
given a set of images, multi-view encoder tokenizes the images with the camera
poses. Latent-space K-means selects a reduced set of rays as cluster centroids
using the tokens. The multi-view ``condenser'' compresses the information of
all the tokens into the centroid tokens to construct CLiFTs. At test time,
given a target view and a compute budget (i.e., the number of CLiFTs), the
system collects the specified number of nearby tokens and synthesizes a novel
view using a compute-adaptive renderer. Extensive experiments on RealEstate10K
and DL3DV datasets quantitatively and qualitatively validate our approach,
achieving significant data reduction with comparable rendering quality and the
highest overall rendering score, while providing trade-offs of data size,
rendering quality, and rendering speed.