Skalierung von Gesichtsinteraktions-Graph-Netzwerken für reale Szenen

papers.abstract

Die präzise Simulation der Dynamik realer Objekte ist entscheidend für verschiedene Anwendungen wie Robotik, Ingenieurwesen, Grafik und Design. Um komplexe reale Dynamiken wie Kontakt und Reibung besser zu erfassen, haben auf Graphnetzwerken basierte gelernte Simulatoren in letzter Zeit großes Potenzial gezeigt. Die Anwendung dieser gelernten Simulatoren auf reale Szenen bringt jedoch zwei große Herausforderungen mit sich: erstens die Skalierung der gelernten Simulatoren, um die Komplexität realer Szenen zu bewältigen, die Hunderte von Objekten mit komplizierten 3D-Formen umfassen können, und zweitens die Verarbeitung von Eingaben aus der Wahrnehmung anstelle von 3D-Zustandsinformationen. Hier stellen wir eine Methode vor, die den Speicherbedarf für die Ausführung von graphbasierten gelernten Simulatoren erheblich reduziert. Basierend auf diesem speichereffizienten Simulationsmodell präsentieren wir dann eine Wahrnehmungsschnittstelle in Form von editierbaren NeRFs, die reale Szenen in eine strukturierte Darstellung umwandeln kann, die von einem Graphnetzwerk-Simulator verarbeitet werden kann. Wir zeigen, dass unsere Methode deutlich weniger Speicher benötigt als bisherige graphbasierte Simulatoren, während sie deren Genauigkeit beibehält, und dass die in synthetischen Umgebungen gelernten Simulatoren auf reale Szenen angewendet werden können, die aus mehreren Kamerawinkeln aufgenommen wurden. Dies ebnet den Weg für die Erweiterung der Anwendung gelernten Simulatoren auf Szenarien, in denen zum Zeitpunkt der Inferenz nur Wahrnehmungsinformationen verfügbar sind.

English

Accurately simulating real world object dynamics is essential for various applications such as robotics, engineering, graphics, and design. To better capture complex real dynamics such as contact and friction, learned simulators based on graph networks have recently shown great promise. However, applying these learned simulators to real scenes comes with two major challenges: first, scaling learned simulators to handle the complexity of real world scenes which can involve hundreds of objects each with complicated 3D shapes, and second, handling inputs from perception rather than 3D state information. Here we introduce a method which substantially reduces the memory required to run graph-based learned simulators. Based on this memory-efficient simulation model, we then present a perceptual interface in the form of editable NeRFs which can convert real-world scenes into a structured representation that can be processed by graph network simulator. We show that our method uses substantially less memory than previous graph-based simulators while retaining their accuracy, and that the simulators learned in synthetic environments can be applied to real world scenes captured from multiple camera angles. This paves the way for expanding the application of learned simulators to settings where only perceptual information is available at inference time.

Skalierung von Gesichtsinteraktions-Graph-Netzwerken für reale Szenen

Scaling Face Interaction Graph Networks to Real World Scenes

papers.abstract

Support