실제 세계 장면에 대한 얼굴 상호작용 그래프 네트워크의 확장
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
저자: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
초록
실제 세계의 물체 역학을 정확하게 시뮬레이션하는 것은 로봇공학, 공학, 그래픽스, 디자인 등 다양한 응용 분야에서 필수적이다. 접촉과 마찰과 같은 복잡한 실제 역학을 더 잘 포착하기 위해 그래프 네트워크 기반의 학습된 시뮬레이터가 최근 큰 가능성을 보여주고 있다. 그러나 이러한 학습된 시뮬레이터를 실제 장면에 적용하는 데는 두 가지 주요 과제가 있다: 첫째, 수백 개의 복잡한 3D 형태를 가진 물체를 포함할 수 있는 실제 세계 장면의 복잡성을 처리하기 위해 학습된 시뮬레이터를 확장하는 것, 둘째, 3D 상태 정보가 아닌 인지로부터의 입력을 처리하는 것이다. 여기서 우리는 그래프 기반 학습 시뮬레이터를 실행하는 데 필요한 메모리를 크게 줄이는 방법을 소개한다. 이 메모리 효율적인 시뮬레이션 모델을 기반으로, 우리는 실제 세계 장면을 그래프 네트워크 시뮬레이터가 처리할 수 있는 구조화된 표현으로 변환할 수 있는 편집 가능한 NeRF 형태의 인지 인터페이스를 제시한다. 우리의 방법은 이전의 그래프 기반 시뮬레이터보다 훨씬 적은 메모리를 사용하면서도 정확도를 유지하며, 합성 환경에서 학습된 시뮬레이터가 다중 카메라 각도에서 캡처된 실제 세계 장면에 적용될 수 있음을 보여준다. 이는 추론 시점에 인지 정보만 사용 가능한 환경에서 학습된 시뮬레이터의 응용 범위를 확장하는 길을 열어준다.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.