ResFields : Champs neuronaux résiduels pour les signaux spatiotemporels
ResFields: Residual Neural Fields for Spatiotemporal Signals
September 6, 2023
Auteurs: Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI
Résumé
Les champs neuronaux, une catégorie de réseaux de neurones entraînés à représenter des signaux à haute fréquence, ont suscité une attention considérable ces dernières années en raison de leurs performances impressionnantes dans la modélisation de données 3D complexes, notamment les grands champs de distance signée neuronale (SDF) ou les champs de radiance (NeRF) via un seul perceptron multicouche (MLP). Cependant, malgré la puissance et la simplicité de la représentation des signaux avec un MLP, ces méthodes rencontrent encore des difficultés pour modéliser des signaux temporels vastes et complexes en raison de la capacité limitée des MLP. Dans cet article, nous proposons une approche efficace pour surmonter cette limitation en intégrant des couches résiduelles temporelles dans les champs neuronaux, appelées ResFields, une nouvelle classe de réseaux spécifiquement conçue pour représenter efficacement des signaux temporels complexes. Nous menons une analyse approfondie des propriétés des ResFields et proposons une technique de factorisation matricielle pour réduire le nombre de paramètres entraînables et améliorer les capacités de généralisation. De manière cruciale, notre formulation s'intègre de manière transparente avec les techniques existantes et améliore systématiquement les résultats dans diverses tâches complexes : approximation de vidéos 2D, modélisation de formes dynamiques via des SDF temporels, et reconstruction de NeRF dynamiques. Enfin, nous démontrons l'utilité pratique des ResFields en mettant en évidence leur efficacité pour capturer des scènes 3D dynamiques à partir d'entrées sensorielles éparses d'un système de capture léger.
English
Neural fields, a category of neural networks trained to represent
high-frequency signals, have gained significant attention in recent years due
to their impressive performance in modeling complex 3D data, especially large
neural signed distance (SDFs) or radiance fields (NeRFs) via a single
multi-layer perceptron (MLP). However, despite the power and simplicity of
representing signals with an MLP, these methods still face challenges when
modeling large and complex temporal signals due to the limited capacity of
MLPs. In this paper, we propose an effective approach to address this
limitation by incorporating temporal residual layers into neural fields, dubbed
ResFields, a novel class of networks specifically designed to effectively
represent complex temporal signals. We conduct a comprehensive analysis of the
properties of ResFields and propose a matrix factorization technique to reduce
the number of trainable parameters and enhance generalization capabilities.
Importantly, our formulation seamlessly integrates with existing techniques and
consistently improves results across various challenging tasks: 2D video
approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF
reconstruction. Lastly, we demonstrate the practical utility of ResFields by
showcasing its effectiveness in capturing dynamic 3D scenes from sparse sensory
inputs of a lightweight capture system.