ChatPaper.aiChatPaper

CLiFT: Compressieve Light-Field Tokens voor Compute-Efficiënt en Adaptief Neuraal Renderen

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

July 11, 2025
Auteurs: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI

Samenvatting

Dit artikel presenteert een neurale rendering-benadering die een scène representeert als "gecomprimeerde lichtveld-tokens (CLiFTs)", waarbij rijke uiterlijke en geometrische informatie van een scène behouden blijft. CLiFT maakt compute-efficiënte rendering mogelijk door gecomprimeerde tokens, terwijl het in staat is het aantal tokens aan te passen om een scène te representeren of een nieuwe weergave te renderen met één getraind netwerk. Concreet gezien, gegeven een set afbeeldingen, tokeniseert de multi-view encoder de afbeeldingen samen met de cameraposities. Latent-space K-means selecteert een gereduceerde set stralen als clustercentroïden met behulp van de tokens. De multi-view "condenser" comprimeert de informatie van alle tokens in de centroïde-tokens om CLiFTs te construeren. Tijdens de testfase, gegeven een doelweergave en een compute-budget (d.w.z. het aantal CLiFTs), verzamelt het systeem het opgegeven aantal nabijgelegen tokens en synthetiseert een nieuwe weergave met behulp van een compute-adaptieve renderer. Uitgebreide experimenten op de RealEstate10K- en DL3DV-datasets valideren onze benadering zowel kwantitatief als kwalitatief, waarbij aanzienlijke datareductie wordt bereikt met vergelijkbare renderingkwaliteit en de hoogste algehele renderingscore, terwijl er afwegingen worden geboden tussen datagrootte, renderingkwaliteit en renderingsnelheid.
English
This paper proposes a neural rendering approach that represents a scene as "compressed light-field tokens (CLiFTs)", retaining rich appearance and geometric information of a scene. CLiFT enables compute-efficient rendering by compressed tokens, while being capable of changing the number of tokens to represent a scene or render a novel view with one trained network. Concretely, given a set of images, multi-view encoder tokenizes the images with the camera poses. Latent-space K-means selects a reduced set of rays as cluster centroids using the tokens. The multi-view ``condenser'' compresses the information of all the tokens into the centroid tokens to construct CLiFTs. At test time, given a target view and a compute budget (i.e., the number of CLiFTs), the system collects the specified number of nearby tokens and synthesizes a novel view using a compute-adaptive renderer. Extensive experiments on RealEstate10K and DL3DV datasets quantitatively and qualitatively validate our approach, achieving significant data reduction with comparable rendering quality and the highest overall rendering score, while providing trade-offs of data size, rendering quality, and rendering speed.
PDF541July 14, 2025