ResFields: 時空間信号のための残差ニューラルフィールド
ResFields: Residual Neural Fields for Spatiotemporal Signals
September 6, 2023
著者: Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang
cs.AI
要旨
高周波信号を表現するために訓練されたニューラルネットワークのカテゴリーであるニューラルフィールドは、近年、複雑な3Dデータ、特に大規模なニューラル符号付き距離場(SDF)や放射輝度場(NeRF)を単一の多層パーセプトロン(MLP)でモデル化する際の優れた性能により、大きな注目を集めています。しかし、MLPを用いて信号を表現する手法の強力さと簡潔さにもかかわらず、MLPの容量が限られているため、大規模で複雑な時間的信号をモデル化する際には依然として課題が残っています。本論文では、この制限を解決するための効果的なアプローチとして、ニューラルフィールドに時間的残差層を組み込んだResFieldsを提案します。ResFieldsは、複雑な時間的信号を効果的に表現するために特別に設計された新しいクラスのネットワークです。私たちはResFieldsの特性を包括的に分析し、訓練可能なパラメータの数を削減し、汎化能力を向上させるための行列分解技術を提案します。重要な点として、私たちの定式化は既存の技術とシームレスに統合され、2Dビデオ近似、時間的SDFによる動的形状モデリング、動的NeRF再構築といったさまざまな困難なタスクにおいて一貫して結果を改善します。最後に、軽量キャプチャシステムの疎なセンサー入力から動的3Dシーンを捉える際のResFieldsの実用的な有用性を実証します。
English
Neural fields, a category of neural networks trained to represent
high-frequency signals, have gained significant attention in recent years due
to their impressive performance in modeling complex 3D data, especially large
neural signed distance (SDFs) or radiance fields (NeRFs) via a single
multi-layer perceptron (MLP). However, despite the power and simplicity of
representing signals with an MLP, these methods still face challenges when
modeling large and complex temporal signals due to the limited capacity of
MLPs. In this paper, we propose an effective approach to address this
limitation by incorporating temporal residual layers into neural fields, dubbed
ResFields, a novel class of networks specifically designed to effectively
represent complex temporal signals. We conduct a comprehensive analysis of the
properties of ResFields and propose a matrix factorization technique to reduce
the number of trainable parameters and enhance generalization capabilities.
Importantly, our formulation seamlessly integrates with existing techniques and
consistently improves results across various challenging tasks: 2D video
approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF
reconstruction. Lastly, we demonstrate the practical utility of ResFields by
showcasing its effectiveness in capturing dynamic 3D scenes from sparse sensory
inputs of a lightweight capture system.