Neuronale Szenenchronologie
Neural Scene Chronology
June 13, 2023
Autoren: Haotong Lin, Qianqian Wang, Ruojin Cai, Sida Peng, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely
cs.AI
Zusammenfassung
In dieser Arbeit streben wir die Rekonstruktion eines zeitlich variierenden 3D-Modells an, das in der Lage ist, fotorealistische Darstellungen mit unabhängiger Steuerung von Blickwinkel, Beleuchtung und Zeit aus Internetfotos von großflächigen Wahrzeichen zu erzeugen. Die zentralen Herausforderungen sind zweifach. Erstens sind verschiedene Arten von zeitlichen Veränderungen, wie Beleuchtung und Änderungen der zugrunde liegenden Szene selbst (z. B. das Ersetzen eines Graffitikunstwerks durch ein anderes), in den Bildern miteinander verflochten. Zweitens sind szenenbezogene zeitliche Veränderungen oft diskret und sporadisch über die Zeit verteilt, anstatt kontinuierlich zu sein. Um diese Probleme zu bewältigen, schlagen wir eine neue Szenendarstellung vor, die mit einer neuartigen Methode zur Kodierung von zeitlichen Sprungfunktionen ausgestattet ist, die diskrete szenenbezogene Inhaltsänderungen als stückweise konstante Funktionen über die Zeit modellieren kann. Konkret repräsentieren wir die Szene als ein Raum-Zeit-Radiance-Feld mit einer pro Bild eingebetteten Beleuchtung, wobei zeitlich variierende Szenenänderungen mithilfe einer Reihe von gelernten Sprungfunktionen kodiert werden. Um unsere Aufgabe der Chronologie-Rekonstruktion aus Internetbildern zu erleichtern, haben wir außerdem einen neuen Datensatz von vier Szenen gesammelt, die verschiedene Veränderungen im Laufe der Zeit aufweisen. Wir zeigen, dass unsere Methode auf diesem Datensatz state-of-the-art Ergebnisse bei der Ansichtssynthese erzielt, während sie eine unabhängige Steuerung von Blickwinkel, Zeit und Beleuchtung ermöglicht.
English
In this work, we aim to reconstruct a time-varying 3D model, capable of
rendering photo-realistic renderings with independent control of viewpoint,
illumination, and time, from Internet photos of large-scale landmarks. The core
challenges are twofold. First, different types of temporal changes, such as
illumination and changes to the underlying scene itself (such as replacing one
graffiti artwork with another) are entangled together in the imagery. Second,
scene-level temporal changes are often discrete and sporadic over time, rather
than continuous. To tackle these problems, we propose a new scene
representation equipped with a novel temporal step function encoding method
that can model discrete scene-level content changes as piece-wise constant
functions over time. Specifically, we represent the scene as a space-time
radiance field with a per-image illumination embedding, where
temporally-varying scene changes are encoded using a set of learned step
functions. To facilitate our task of chronology reconstruction from Internet
imagery, we also collect a new dataset of four scenes that exhibit various
changes over time. We demonstrate that our method exhibits state-of-the-art
view synthesis results on this dataset, while achieving independent control of
viewpoint, time, and illumination.