LEIA: Latente ansichtsinvariante Einbettungen für implizite 3D-Gliederung
LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation
September 10, 2024
Autoren: Archana Swaminathan, Anubhav Gupta, Kamal Gupta, Shishira R. Maiya, Vatsal Agarwal, Abhinav Shrivastava
cs.AI
Zusammenfassung
Neuronale Strahlungsfelder (NeRFs) haben die Rekonstruktion statischer Szenen und Objekte in 3D revolutioniert und bieten beispiellose Qualität. Die Erweiterung von NeRFs zur Modellierung dynamischer Objekte oder Objektartikulationen bleibt jedoch ein herausforderndes Problem. Frühere Arbeiten haben sich mit diesem Problem befasst, indem sie sich auf die Rekonstruktion auf Teilebene und die Bewegungsschätzung für Objekte konzentrierten, aber oft auf Heuristiken bezüglich der Anzahl der beweglichen Teile oder Objektkategorien angewiesen waren, was ihren praktischen Einsatz einschränken kann. In dieser Arbeit stellen wir LEIA vor, einen neuartigen Ansatz zur Darstellung dynamischer 3D-Objekte. Unsere Methode beinhaltet die Beobachtung des Objekts zu verschiedenen Zeitpunkten oder "Zuständen" und die Konditionierung eines Hypernetzwerks auf den aktuellen Zustand, um damit unseren NeRF zu parametrisieren. Dieser Ansatz ermöglicht es uns, eine betrachtungsinvariante latente Repräsentation für jeden Zustand zu erlernen. Wir zeigen weiterhin, dass wir durch Interpolation zwischen diesen Zuständen neuartige Artikulationskonfigurationen im 3D-Raum generieren können, die zuvor nicht gesehen wurden. Unsere experimentellen Ergebnisse heben die Wirksamkeit unserer Methode bei der Artikulation von Objekten hervor, unabhängig vom Betrachtungswinkel und der Gelenkkonfiguration. Bemerkenswert ist, dass unser Ansatz frühere Methoden übertrifft, die auf Bewegungsinformationen zur Artikulationsregistrierung angewiesen sind.
English
Neural Radiance Fields (NeRFs) have revolutionized the reconstruction of
static scenes and objects in 3D, offering unprecedented quality. However,
extending NeRFs to model dynamic objects or object articulations remains a
challenging problem. Previous works have tackled this issue by focusing on
part-level reconstruction and motion estimation for objects, but they often
rely on heuristics regarding the number of moving parts or object categories,
which can limit their practical use. In this work, we introduce LEIA, a novel
approach for representing dynamic 3D objects. Our method involves observing the
object at distinct time steps or "states" and conditioning a hypernetwork on
the current state, using this to parameterize our NeRF. This approach allows us
to learn a view-invariant latent representation for each state. We further
demonstrate that by interpolating between these states, we can generate novel
articulation configurations in 3D space that were previously unseen. Our
experimental results highlight the effectiveness of our method in articulating
objects in a manner that is independent of the viewing angle and joint
configuration. Notably, our approach outperforms previous methods that rely on
motion information for articulation registration.Summary
AI-Generated Summary