ChatPaper.aiChatPaper

CLiFT: Tokens de Campo de Luz Compressivos para Renderização Neural Eficiente em Computação e Adaptativa

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

July 11, 2025
Autores: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI

Resumo

Este artigo propõe uma abordagem de renderização neural que representa uma cena como "tokens de campo de luz comprimidos (CLiFTs)", retendo informações ricas de aparência e geometria da cena. O CLiFT permite renderização eficiente em termos de computação por meio de tokens comprimidos, ao mesmo tempo em que é capaz de alterar o número de tokens para representar uma cena ou renderizar uma nova visão com uma única rede treinada. Concretamente, dado um conjunto de imagens, o codificador multiview tokeniza as imagens com as poses da câmera. O K-means no espaço latente seleciona um conjunto reduzido de raios como centróides de cluster usando os tokens. O "condensador" multiview comprime as informações de todos os tokens nos tokens centróides para construir os CLiFTs. No momento do teste, dada uma visão alvo e um orçamento de computação (ou seja, o número de CLiFTs), o sistema coleta o número especificado de tokens próximos e sintetiza uma nova visão usando um renderizador adaptativo à computação. Experimentos extensivos nos conjuntos de dados RealEstate10K e DL3DV validam quantitativa e qualitativamente nossa abordagem, alcançando redução significativa de dados com qualidade de renderização comparável e a maior pontuação geral de renderização, ao mesmo tempo em que oferece compensações entre tamanho dos dados, qualidade de renderização e velocidade de renderização.
English
This paper proposes a neural rendering approach that represents a scene as "compressed light-field tokens (CLiFTs)", retaining rich appearance and geometric information of a scene. CLiFT enables compute-efficient rendering by compressed tokens, while being capable of changing the number of tokens to represent a scene or render a novel view with one trained network. Concretely, given a set of images, multi-view encoder tokenizes the images with the camera poses. Latent-space K-means selects a reduced set of rays as cluster centroids using the tokens. The multi-view ``condenser'' compresses the information of all the tokens into the centroid tokens to construct CLiFTs. At test time, given a target view and a compute budget (i.e., the number of CLiFTs), the system collects the specified number of nearby tokens and synthesizes a novel view using a compute-adaptive renderer. Extensive experiments on RealEstate10K and DL3DV datasets quantitatively and qualitatively validate our approach, achieving significant data reduction with comparable rendering quality and the highest overall rendering score, while providing trade-offs of data size, rendering quality, and rendering speed.
PDF541July 14, 2025