Het Schalen van Face Interaction Graph Networks naar Realistische Scènes
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
Auteurs: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
Samenvatting
Het nauwkeurig simuleren van de dynamiek van objecten in de echte wereld is essentieel voor diverse toepassingen zoals robotica, engineering, grafische vormgeving en ontwerp. Om complexe dynamische processen zoals contact en wrijving beter te kunnen vastleggen, hebben geleerde simulatoren gebaseerd op grafennetwerken recentelijk veelbelovende resultaten laten zien. Het toepassen van deze geleerde simulatoren op echte scenario's brengt echter twee grote uitdagingen met zich mee: ten eerste het schalen van geleerde simulatoren om de complexiteit van echte wereldscènes te kunnen verwerken, waarbij honderden objecten met ingewikkelde 3D-vormen betrokken kunnen zijn, en ten tweede het omgaan met invoer vanuit perceptie in plaats van 3D-toestandsinformatie. Hier introduceren we een methode die het benodigde geheugen voor het uitvoeren van op grafennetwerken gebaseerde geleerde simulatoren aanzienlijk reduceert. Gebaseerd op dit geheugenefficiënte simulatiemodel presenteren we vervolgens een perceptuele interface in de vorm van bewerkbare NeRFs, die echte wereldscènes kunnen omzetten in een gestructureerde representatie die verwerkt kan worden door een grafennetwerksimulator. We laten zien dat onze methode aanzienlijk minder geheugen gebruikt dan eerdere op grafennetwerken gebaseerde simulatoren, terwijl de nauwkeurigheid behouden blijft, en dat de simulatoren die in synthetische omgevingen zijn geleerd, kunnen worden toegepast op echte wereldscènes die vanuit meerdere camerahoeken zijn vastgelegd. Dit opent de weg voor het uitbreiden van de toepassing van geleerde simulatoren naar situaties waarin alleen perceptuele informatie beschikbaar is tijdens de inferentiefase.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.