Skalierung von Gesichtsinteraktions-Graph-Netzwerken für reale Szenen
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
Autoren: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
Zusammenfassung
Die präzise Simulation der Dynamik realer Objekte ist entscheidend für verschiedene Anwendungen wie Robotik, Ingenieurwesen, Grafik und Design. Um komplexe reale Dynamiken wie Kontakt und Reibung besser zu erfassen, haben auf Graphnetzwerken basierte gelernte Simulatoren in letzter Zeit großes Potenzial gezeigt. Die Anwendung dieser gelernten Simulatoren auf reale Szenen bringt jedoch zwei große Herausforderungen mit sich: erstens die Skalierung der gelernten Simulatoren, um die Komplexität realer Szenen zu bewältigen, die Hunderte von Objekten mit komplizierten 3D-Formen umfassen können, und zweitens die Verarbeitung von Eingaben aus der Wahrnehmung anstelle von 3D-Zustandsinformationen. Hier stellen wir eine Methode vor, die den Speicherbedarf für die Ausführung von graphbasierten gelernten Simulatoren erheblich reduziert. Basierend auf diesem speichereffizienten Simulationsmodell präsentieren wir dann eine Wahrnehmungsschnittstelle in Form von editierbaren NeRFs, die reale Szenen in eine strukturierte Darstellung umwandeln kann, die von einem Graphnetzwerk-Simulator verarbeitet werden kann. Wir zeigen, dass unsere Methode deutlich weniger Speicher benötigt als bisherige graphbasierte Simulatoren, während sie deren Genauigkeit beibehält, und dass die in synthetischen Umgebungen gelernten Simulatoren auf reale Szenen angewendet werden können, die aus mehreren Kamerawinkeln aufgenommen wurden. Dies ebnet den Weg für die Erweiterung der Anwendung gelernten Simulatoren auf Szenarien, in denen zum Zeitpunkt der Inferenz nur Wahrnehmungsinformationen verfügbar sind.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.