Масштабирование графовых сетей для взаимодействия лиц до реальных сцен

Аннотация

Точное моделирование динамики объектов реального мира имеет ключевое значение для различных приложений, таких как робототехника, инженерия, графика и дизайн. Для более точного воспроизведения сложных реальных динамических процессов, таких как контакт и трение, недавно были предложены обучаемые симуляторы на основе графовых сетей, показавшие значительный потенциал. Однако применение этих обучаемых симуляторов к реальным сценам связано с двумя основными проблемами: во-первых, масштабирование симуляторов для обработки сложности реальных сцен, которые могут включать сотни объектов, каждый из которых имеет сложную 3D-форму, и, во-вторых, обработка входных данных, полученных от систем восприятия, а не 3D-состояний. В данной работе мы представляем метод, который существенно снижает объем памяти, необходимый для работы графовых обучаемых симуляторов. На основе этой модели с эффективным использованием памяти мы затем предлагаем интерфейс восприятия в виде редактируемых NeRF, который может преобразовывать реальные сцены в структурированное представление, пригодное для обработки графовым сетевым симулятором. Мы показываем, что наш метод требует значительно меньше памяти по сравнению с предыдущими графовыми симуляторами, сохраняя при этом их точность, и что симуляторы, обученные на синтетических данных, могут быть применены к реальным сценам, захваченным с нескольких углов камеры. Это открывает путь для расширения применения обучаемых симуляторов в условиях, когда на этапе вывода доступна только информация от систем восприятия.

English

Accurately simulating real world object dynamics is essential for various applications such as robotics, engineering, graphics, and design. To better capture complex real dynamics such as contact and friction, learned simulators based on graph networks have recently shown great promise. However, applying these learned simulators to real scenes comes with two major challenges: first, scaling learned simulators to handle the complexity of real world scenes which can involve hundreds of objects each with complicated 3D shapes, and second, handling inputs from perception rather than 3D state information. Here we introduce a method which substantially reduces the memory required to run graph-based learned simulators. Based on this memory-efficient simulation model, we then present a perceptual interface in the form of editable NeRFs which can convert real-world scenes into a structured representation that can be processed by graph network simulator. We show that our method uses substantially less memory than previous graph-based simulators while retaining their accuracy, and that the simulators learned in synthetic environments can be applied to real world scenes captured from multiple camera angles. This paves the way for expanding the application of learned simulators to settings where only perceptual information is available at inference time.

Масштабирование графовых сетей для взаимодействия лиц до реальных сцен

Scaling Face Interaction Graph Networks to Real World Scenes

Аннотация

Support