Scalabilità delle Reti Grafiche di Interazione Facciale a Scene del Mondo Reale

Abstract

Simulare accuratamente le dinamiche degli oggetti nel mondo reale è essenziale per varie applicazioni come la robotica, l'ingegneria, la grafica e il design. Per catturare meglio dinamiche reali complesse come il contatto e l'attrito, i simulatori basati su reti grafiche hanno recentemente mostrato grandi promesse. Tuttavia, applicare questi simulatori appresi a scene reali presenta due sfide principali: in primo luogo, scalare i simulatori appresi per gestire la complessità delle scene del mondo reale, che possono coinvolgere centinaia di oggetti ciascuno con forme 3D complicate, e in secondo luogo, gestire input provenienti dalla percezione piuttosto che da informazioni sullo stato 3D. Qui introduciamo un metodo che riduce sostanzialmente la memoria necessaria per eseguire simulatori appresi basati su grafi. Basandoci su questo modello di simulazione efficiente in termini di memoria, presentiamo quindi un'interfaccia percettiva sotto forma di NeRF modificabili che possono convertire scene del mondo reale in una rappresentazione strutturata che può essere elaborata da un simulatore basato su reti grafiche. Mostriamo che il nostro metodo utilizza sostanzialmente meno memoria rispetto ai precedenti simulatori basati su grafi mantenendo la loro accuratezza, e che i simulatori appresi in ambienti sintetici possono essere applicati a scene del mondo reale catturate da più angolazioni della telecamera. Questo apre la strada per espandere l'applicazione dei simulatori appresi a contesti in cui sono disponibili solo informazioni percettive al momento dell'inferenza.

English

Accurately simulating real world object dynamics is essential for various applications such as robotics, engineering, graphics, and design. To better capture complex real dynamics such as contact and friction, learned simulators based on graph networks have recently shown great promise. However, applying these learned simulators to real scenes comes with two major challenges: first, scaling learned simulators to handle the complexity of real world scenes which can involve hundreds of objects each with complicated 3D shapes, and second, handling inputs from perception rather than 3D state information. Here we introduce a method which substantially reduces the memory required to run graph-based learned simulators. Based on this memory-efficient simulation model, we then present a perceptual interface in the form of editable NeRFs which can convert real-world scenes into a structured representation that can be processed by graph network simulator. We show that our method uses substantially less memory than previous graph-based simulators while retaining their accuracy, and that the simulators learned in synthetic environments can be applied to real world scenes captured from multiple camera angles. This paves the way for expanding the application of learned simulators to settings where only perceptual information is available at inference time.

Scalabilità delle Reti Grafiche di Interazione Facciale a Scene del Mondo Reale

Scaling Face Interaction Graph Networks to Real World Scenes

Abstract

Support