Mise à l'échelle des réseaux de graphes d'interaction faciale pour des scènes du monde réel
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
Auteurs: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
Résumé
La simulation précise de la dynamique des objets du monde réel est essentielle pour diverses applications telles que la robotique, l'ingénierie, les graphiques et la conception. Pour mieux capturer des dynamiques réelles complexes telles que le contact et la friction, les simulateurs appris basés sur des réseaux de graphes ont récemment montré un grand potentiel. Cependant, l'application de ces simulateurs appris à des scènes réelles présente deux défis majeurs : premièrement, la mise à l'échelle des simulateurs appris pour gérer la complexité des scènes du monde réel, qui peuvent impliquer des centaines d'objets chacun avec des formes 3D complexes, et deuxièmement, la gestion des entrées provenant de la perception plutôt que des informations d'état 3D. Nous présentons ici une méthode qui réduit considérablement la mémoire nécessaire pour exécuter des simulateurs appris basés sur des graphes. Sur la base de ce modèle de simulation économe en mémoire, nous proposons ensuite une interface perceptuelle sous la forme de NeRFs modifiables, capables de convertir des scènes du monde réel en une représentation structurée pouvant être traitée par un simulateur de réseau de graphes. Nous montrons que notre méthode utilise nettement moins de mémoire que les simulateurs basés sur des graphes précédents tout en conservant leur précision, et que les simulateurs appris dans des environnements synthétiques peuvent être appliqués à des scènes du monde réel capturées sous plusieurs angles de caméra. Cela ouvre la voie à l'extension de l'application des simulateurs appris à des contextes où seule l'information perceptuelle est disponible au moment de l'inférence.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.