CLiFT: Сжатые токены светового поля для эффективных по вычислениям и адаптивных нейронных рендерингов
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering
July 11, 2025
Авторы: Zhengqing Wang, Yuefan Wu, Jiacheng Chen, Fuyang Zhang, Yasutaka Furukawa
cs.AI
Аннотация
В данной статье предлагается подход нейронного рендеринга, который представляет сцену в виде "сжатых токенов светового поля (CLiFTs)", сохраняя богатую информацию о внешнем виде и геометрии сцены. CLiFT обеспечивает эффективный с точки зрения вычислений рендеринг за счет сжатых токенов, при этом позволяя изменять количество токенов для представления сцены или рендеринга нового вида с использованием одной обученной сети. Конкретно, заданный набор изображений многовидовой кодировщик токенизирует с учетом поз камер. K-средние в латентном пространстве выбирают уменьшенный набор лучей в качестве центроидов кластеров с использованием токенов. Многовидовой "конденсатор" сжимает информацию всех токенов в центроидные токены для построения CLiFTs. На этапе тестирования, задавая целевой вид и бюджет вычислений (т.е. количество CLiFTs), система собирает указанное количество ближайших токенов и синтезирует новый вид с использованием адаптивного к вычислениям рендерера. Обширные эксперименты на наборах данных RealEstate10K и DL3DV количественно и качественно подтверждают наш подход, достигая значительного сокращения данных при сопоставимом качестве рендеринга и наивысшем общем балле рендеринга, предоставляя компромиссы между размером данных, качеством рендеринга и скоростью рендеринга.
English
This paper proposes a neural rendering approach that represents a scene as
"compressed light-field tokens (CLiFTs)", retaining rich appearance and
geometric information of a scene. CLiFT enables compute-efficient rendering by
compressed tokens, while being capable of changing the number of tokens to
represent a scene or render a novel view with one trained network. Concretely,
given a set of images, multi-view encoder tokenizes the images with the camera
poses. Latent-space K-means selects a reduced set of rays as cluster centroids
using the tokens. The multi-view ``condenser'' compresses the information of
all the tokens into the centroid tokens to construct CLiFTs. At test time,
given a target view and a compute budget (i.e., the number of CLiFTs), the
system collects the specified number of nearby tokens and synthesizes a novel
view using a compute-adaptive renderer. Extensive experiments on RealEstate10K
and DL3DV datasets quantitatively and qualitatively validate our approach,
achieving significant data reduction with comparable rendering quality and the
highest overall rendering score, while providing trade-offs of data size,
rendering quality, and rendering speed.