CLiFT: Kompressive Lichtfeld-Tokens für recheneffizientes und adaptives neuronales Rendering
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering
July 11, 2025
papers.authors: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI
papers.abstract
Dieses Papier stellt einen neuronalen Rendering-Ansatz vor, der eine Szene als „komprimierte Lichtfeld-Tokens (CLiFTs)“ repräsentiert und dabei reichhaltige Erscheinungs- und geometrische Informationen der Szene beibehält. CLiFT ermöglicht recheneffizientes Rendering durch komprimierte Tokens, während es gleichzeitig in der Lage ist, die Anzahl der Tokens zur Darstellung einer Szene zu ändern oder eine neue Ansicht mit einem trainierten Netzwerk zu rendern. Konkret tokenisiert ein Multi-View-Encoder bei einer gegebenen Menge von Bildern die Bilder zusammen mit den Kameraposen. Latent-Space-K-means wählt eine reduzierte Menge von Strahlen als Clusterzentroide unter Verwendung der Tokens aus. Der Multi-View-„Kondensator“ komprimiert die Informationen aller Tokens in die Zentroid-Tokens, um CLiFTs zu konstruieren. Zum Testzeitpunkt sammelt das System bei einer gegebenen Zielansicht und einem Rechenbudget (d.h. der Anzahl der CLiFTs) die angegebene Anzahl benachbarter Tokens und synthetisiert eine neue Ansicht mit einem rechenadaptiven Renderer. Umfangreiche Experimente auf den Datensätzen RealEstate10K und DL3DV validieren unseren Ansatz quantitativ und qualitativ, erreichen eine signifikante Datenreduktion bei vergleichbarer Rendering-Qualität und der höchsten Gesamt-Rendering-Bewertung, während sie Kompromisse zwischen Datengröße, Rendering-Qualität und Rendering-Geschwindigkeit bieten.
English
This paper proposes a neural rendering approach that represents a scene as
"compressed light-field tokens (CLiFTs)", retaining rich appearance and
geometric information of a scene. CLiFT enables compute-efficient rendering by
compressed tokens, while being capable of changing the number of tokens to
represent a scene or render a novel view with one trained network. Concretely,
given a set of images, multi-view encoder tokenizes the images with the camera
poses. Latent-space K-means selects a reduced set of rays as cluster centroids
using the tokens. The multi-view ``condenser'' compresses the information of
all the tokens into the centroid tokens to construct CLiFTs. At test time,
given a target view and a compute budget (i.e., the number of CLiFTs), the
system collects the specified number of nearby tokens and synthesizes a novel
view using a compute-adaptive renderer. Extensive experiments on RealEstate10K
and DL3DV datasets quantitatively and qualitatively validate our approach,
achieving significant data reduction with comparable rendering quality and the
highest overall rendering score, while providing trade-offs of data size,
rendering quality, and rendering speed.