Scalabilità delle Reti Grafiche di Interazione Facciale a Scene del Mondo Reale
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
Autori: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
Abstract
Simulare accuratamente le dinamiche degli oggetti nel mondo reale è essenziale per varie applicazioni come la robotica, l'ingegneria, la grafica e il design. Per catturare meglio dinamiche reali complesse come il contatto e l'attrito, i simulatori basati su reti grafiche hanno recentemente mostrato grandi promesse. Tuttavia, applicare questi simulatori appresi a scene reali presenta due sfide principali: in primo luogo, scalare i simulatori appresi per gestire la complessità delle scene del mondo reale, che possono coinvolgere centinaia di oggetti ciascuno con forme 3D complicate, e in secondo luogo, gestire input provenienti dalla percezione piuttosto che da informazioni sullo stato 3D. Qui introduciamo un metodo che riduce sostanzialmente la memoria necessaria per eseguire simulatori appresi basati su grafi. Basandoci su questo modello di simulazione efficiente in termini di memoria, presentiamo quindi un'interfaccia percettiva sotto forma di NeRF modificabili che possono convertire scene del mondo reale in una rappresentazione strutturata che può essere elaborata da un simulatore basato su reti grafiche. Mostriamo che il nostro metodo utilizza sostanzialmente meno memoria rispetto ai precedenti simulatori basati su grafi mantenendo la loro accuratezza, e che i simulatori appresi in ambienti sintetici possono essere applicati a scene del mondo reale catturate da più angolazioni della telecamera. Questo apre la strada per espandere l'applicazione dei simulatori appresi a contesti in cui sono disponibili solo informazioni percettive al momento dell'inferenza.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.