Visualização Latente Invariante de Visão para Articulação 3D Implícita
LEIA: Latent View-invariant Embeddings for Implicit 3D Articulation
September 10, 2024
Autores: Archana Swaminathan, Anubhav Gupta, Kamal Gupta, Shishira R. Maiya, Vatsal Agarwal, Abhinav Shrivastava
cs.AI
Resumo
Os Campos de Radiância Neural (NeRFs) revolucionaram a reconstrução de cenas e objetos estáticos em 3D, oferecendo uma qualidade sem precedentes. No entanto, estender os NeRFs para modelar objetos dinâmicos ou articulações de objetos continua sendo um problema desafiador. Trabalhos anteriores abordaram essa questão ao se concentrar na reconstrução em nível de partes e na estimativa de movimento para objetos, mas frequentemente dependem de heurísticas em relação ao número de partes móveis ou categorias de objetos, o que pode limitar seu uso prático. Neste trabalho, apresentamos LEIA, uma abordagem inovadora para representar objetos 3D dinâmicos. Nosso método envolve observar o objeto em diferentes etapas de tempo ou "estados" e condicionar uma hipernetwork no estado atual, utilizando isso para parametrizar nosso NeRF. Essa abordagem nos permite aprender uma representação latente invariante à vista para cada estado. Demonstramos ainda que, ao interpolar entre esses estados, podemos gerar novas configurações de articulação no espaço 3D que não foram vistas anteriormente. Nossos resultados experimentais destacam a eficácia de nosso método em articular objetos de uma maneira independente do ângulo de visão e da configuração das articulações. Notavelmente, nossa abordagem supera métodos anteriores que dependem de informações de movimento para registro de articulação.
English
Neural Radiance Fields (NeRFs) have revolutionized the reconstruction of
static scenes and objects in 3D, offering unprecedented quality. However,
extending NeRFs to model dynamic objects or object articulations remains a
challenging problem. Previous works have tackled this issue by focusing on
part-level reconstruction and motion estimation for objects, but they often
rely on heuristics regarding the number of moving parts or object categories,
which can limit their practical use. In this work, we introduce LEIA, a novel
approach for representing dynamic 3D objects. Our method involves observing the
object at distinct time steps or "states" and conditioning a hypernetwork on
the current state, using this to parameterize our NeRF. This approach allows us
to learn a view-invariant latent representation for each state. We further
demonstrate that by interpolating between these states, we can generate novel
articulation configurations in 3D space that were previously unseen. Our
experimental results highlight the effectiveness of our method in articulating
objects in a manner that is independent of the viewing angle and joint
configuration. Notably, our approach outperforms previous methods that rely on
motion information for articulation registration.Summary
AI-Generated Summary