ResFields: Campos Neuronales Residuales para Señales Espaciotemporales
ResFields: Residual Neural Fields for Spatiotemporal Signals
September 6, 2023
Autores: Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI
Resumen
Los campos neuronales, una categoría de redes neuronales entrenadas para representar señales de alta frecuencia, han ganado una atención significativa en los últimos años debido a su impresionante rendimiento en el modelado de datos 3D complejos, especialmente grandes campos de distancia con signo neuronal (SDFs) o campos de radiancia (NeRFs) mediante un perceptrón multicapa (MLP) único. Sin embargo, a pesar de la potencia y simplicidad de representar señales con un MLP, estos métodos aún enfrentan desafíos al modelar señales temporales grandes y complejas debido a la capacidad limitada de los MLPs. En este artículo, proponemos un enfoque efectivo para abordar esta limitación mediante la incorporación de capas residuales temporales en los campos neuronales, denominadas ResFields, una nueva clase de redes diseñadas específicamente para representar eficazmente señales temporales complejas. Realizamos un análisis exhaustivo de las propiedades de los ResFields y proponemos una técnica de factorización de matrices para reducir el número de parámetros entrenables y mejorar las capacidades de generalización. Es importante destacar que nuestra formulación se integra perfectamente con técnicas existentes y mejora consistentemente los resultados en diversas tareas desafiantes: aproximación de video 2D, modelado de formas dinámicas mediante SDFs temporales y reconstrucción dinámica de NeRFs. Por último, demostramos la utilidad práctica de los ResFields al mostrar su eficacia en la captura de escenas 3D dinámicas a partir de entradas sensoriales escasas de un sistema de captura ligero.
English
Neural fields, a category of neural networks trained to represent
high-frequency signals, have gained significant attention in recent years due
to their impressive performance in modeling complex 3D data, especially large
neural signed distance (SDFs) or radiance fields (NeRFs) via a single
multi-layer perceptron (MLP). However, despite the power and simplicity of
representing signals with an MLP, these methods still face challenges when
modeling large and complex temporal signals due to the limited capacity of
MLPs. In this paper, we propose an effective approach to address this
limitation by incorporating temporal residual layers into neural fields, dubbed
ResFields, a novel class of networks specifically designed to effectively
represent complex temporal signals. We conduct a comprehensive analysis of the
properties of ResFields and propose a matrix factorization technique to reduce
the number of trainable parameters and enhance generalization capabilities.
Importantly, our formulation seamlessly integrates with existing techniques and
consistently improves results across various challenging tasks: 2D video
approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF
reconstruction. Lastly, we demonstrate the practical utility of ResFields by
showcasing its effectiveness in capturing dynamic 3D scenes from sparse sensory
inputs of a lightweight capture system.