Масштабирование графовых сетей для взаимодействия лиц до реальных сцен
Scaling Face Interaction Graph Networks to Real World Scenes
January 22, 2024
Авторы: Tatiana Lopez-Guevara, Yulia Rubanova, William F. Whitney, Tobias Pfaff, Kimberly Stachenfeld, Kelsey R. Allen
cs.AI
Аннотация
Точное моделирование динамики объектов реального мира имеет ключевое значение для различных приложений, таких как робототехника, инженерия, графика и дизайн. Для более точного воспроизведения сложных реальных динамических процессов, таких как контакт и трение, недавно были предложены обучаемые симуляторы на основе графовых сетей, показавшие значительный потенциал. Однако применение этих обучаемых симуляторов к реальным сценам связано с двумя основными проблемами: во-первых, масштабирование симуляторов для обработки сложности реальных сцен, которые могут включать сотни объектов, каждый из которых имеет сложную 3D-форму, и, во-вторых, обработка входных данных, полученных от систем восприятия, а не 3D-состояний. В данной работе мы представляем метод, который существенно снижает объем памяти, необходимый для работы графовых обучаемых симуляторов. На основе этой модели с эффективным использованием памяти мы затем предлагаем интерфейс восприятия в виде редактируемых NeRF, который может преобразовывать реальные сцены в структурированное представление, пригодное для обработки графовым сетевым симулятором. Мы показываем, что наш метод требует значительно меньше памяти по сравнению с предыдущими графовыми симуляторами, сохраняя при этом их точность, и что симуляторы, обученные на синтетических данных, могут быть применены к реальным сценам, захваченным с нескольких углов камеры. Это открывает путь для расширения применения обучаемых симуляторов в условиях, когда на этапе вывода доступна только информация от систем восприятия.
English
Accurately simulating real world object dynamics is essential for various
applications such as robotics, engineering, graphics, and design. To better
capture complex real dynamics such as contact and friction, learned simulators
based on graph networks have recently shown great promise. However, applying
these learned simulators to real scenes comes with two major challenges: first,
scaling learned simulators to handle the complexity of real world scenes which
can involve hundreds of objects each with complicated 3D shapes, and second,
handling inputs from perception rather than 3D state information. Here we
introduce a method which substantially reduces the memory required to run
graph-based learned simulators. Based on this memory-efficient simulation
model, we then present a perceptual interface in the form of editable NeRFs
which can convert real-world scenes into a structured representation that can
be processed by graph network simulator. We show that our method uses
substantially less memory than previous graph-based simulators while retaining
their accuracy, and that the simulators learned in synthetic environments can
be applied to real world scenes captured from multiple camera angles. This
paves the way for expanding the application of learned simulators to settings
where only perceptual information is available at inference time.