Escalonando Redes de Grafos de Interação Facial para Cenas do Mundo Real
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
Autores: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
Resumo
Simular com precisão a dinâmica de objetos do mundo real é essencial para diversas aplicações, como robótica, engenharia, gráficos e design. Para capturar melhor dinâmicas complexas do mundo real, como contato e atrito, simuladores baseados em aprendizado utilizando redes de grafos têm mostrado grande potencial recentemente. No entanto, aplicar esses simuladores aprendidos a cenas reais apresenta dois grandes desafios: primeiro, escalar simuladores aprendidos para lidar com a complexidade de cenas do mundo real, que podem envolver centenas de objetos, cada um com formas 3D complicadas, e segundo, processar entradas provenientes de percepção em vez de informações de estado 3D. Aqui, introduzimos um método que reduz substancialmente a memória necessária para executar simuladores aprendidos baseados em grafos. Com base nesse modelo de simulação eficiente em memória, apresentamos uma interface perceptual na forma de NeRFs editáveis, que podem converter cenas do mundo real em uma representação estruturada que pode ser processada por um simulador de rede de grafos. Mostramos que nosso método utiliza significativamente menos memória do que simuladores baseados em grafos anteriores, mantendo sua precisão, e que os simuladores aprendidos em ambientes sintéticos podem ser aplicados a cenas do mundo real capturadas de múltiplos ângulos de câmera. Isso abre caminho para expandir a aplicação de simuladores aprendidos para cenários onde apenas informações perceptivas estão disponíveis no momento da inferência.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.