LEIA : Incrustations Latentes Invariantes à la Vue pour l'Articulation 3D Implicite
LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation
September 10, 2024
Auteurs: Archana Swaminathan, Anubhav Gupta, Kamal Gupta, Shishira R. Maiya, Vatsal Agarwal, Abhinav Shrivastava
cs.AI
Résumé
Les Champs de Radiance Neuraux (NeRFs) ont révolutionné la reconstruction de scènes et d'objets statiques en 3D, offrant une qualité sans précédent. Cependant, étendre les NeRFs pour modéliser des objets dynamiques ou des articulations d'objets reste un problème complexe. Les travaux antérieurs ont abordé cette question en se concentrant sur la reconstruction au niveau des parties et l'estimation du mouvement des objets, mais ils reposent souvent sur des heuristiques concernant le nombre de parties mobiles ou les catégories d'objets, ce qui peut limiter leur utilisation pratique. Dans ce travail, nous introduisons LEIA, une nouvelle approche pour représenter des objets 3D dynamiques. Notre méthode implique d'observer l'objet à des instants de temps distincts ou "états" et de conditionner un hyper-réseau sur l'état actuel, en l'utilisant pour paramétrer notre NeRF. Cette approche nous permet d'apprendre une représentation latente invariante à la vue pour chaque état. Nous démontrons en outre qu'en interpolant entre ces états, nous pouvons générer de nouvelles configurations d'articulation dans l'espace 3D qui n'avaient pas été vues auparavant. Nos résultats expérimentaux mettent en évidence l'efficacité de notre méthode pour articuler des objets d'une manière indépendante de l'angle de vue et de la configuration des articulations. Notamment, notre approche surpasse les méthodes antérieures qui reposent sur des informations de mouvement pour l'enregistrement des articulations.
English
Neural Radiance Fields (NeRFs) have revolutionized the reconstruction of
static scenes and objects in 3D, offering unprecedented quality. However,
extending NeRFs to model dynamic objects or object articulations remains a
challenging problem. Previous works have tackled this issue by focusing on
part-level reconstruction and motion estimation for objects, but they often
rely on heuristics regarding the number of moving parts or object categories,
which can limit their practical use. In this work, we introduce LEIA, a novel
approach for representing dynamic 3D objects. Our method involves observing the
object at distinct time steps or "states" and conditioning a hypernetwork on
the current state, using this to parameterize our NeRF. This approach allows us
to learn a view-invariant latent representation for each state. We further
demonstrate that by interpolating between these states, we can generate novel
articulation configurations in 3D space that were previously unseen. Our
experimental results highlight the effectiveness of our method in articulating
objects in a manner that is independent of the viewing angle and joint
configuration. Notably, our approach outperforms previous methods that rely on
motion information for articulation registration.