Einzelne Schicht lernbarer Aktivierung für implizite neuronale Repräsentation (SL^{2}A-INR)
Single-Layer Learnable Activation for Implicit Neural Representation (SL^{2}A-INR)
September 17, 2024
Autoren: Moein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu
cs.AI
Zusammenfassung
Die Implizite Neuronale Repräsentation (INR), die ein neuronales Netzwerk nutzt, um Eingabekoordinaten in entsprechende Merkmale umzuwandeln, hat in letzter Zeit signifikante Fortschritte in mehreren auf die Vision bezogenen Bereichen vorangetrieben. Die Leistungsfähigkeit von INR wird jedoch stark von der Wahl der nichtlinearen Aktivierungsfunktion beeinflusst, die in seiner Mehrschichtperzeptron (MLP) Architektur verwendet wird. Mehrere Nichtlinearitäten wurden untersucht; dennoch stoßen aktuelle INRs auf Einschränkungen bei der Erfassung von Hochfrequenzkomponenten, verschiedenen Signaltypen und der Bewältigung inverser Probleme. Wir haben festgestellt, dass diese Probleme durch die Einführung eines Paradigmenwechsels in INRs erheblich gemildert werden können. Wir stellen fest, dass eine Architektur mit erlernbaren Aktivierungen in den anfänglichen Schichten feine Details in den zugrunde liegenden Signalen darstellen kann. Speziell schlagen wir SL^{2}A-INR vor, ein Hybridnetzwerk für INR mit einer erlernbaren Aktivierungsfunktion in einer Schicht, die die Effektivität traditioneller ReLU-basierter MLPs fördert. Unsere Methode übertrifft verschiedene Aufgaben, einschließlich Bildrepräsentation, 3D-Formrekonstruktionen, Inpainting, Superauflösung von Einzelbildern, CT-Rekonstruktion und neuartige Ansichtssynthese. Durch umfassende Experimente setzt SL^{2}A-INR neue Maßstäbe in Genauigkeit, Qualität und Konvergenzraten für INR.
English
Implicit Neural Representation (INR), leveraging a neural network to
transform coordinate input into corresponding attributes, has recently driven
significant advances in several vision-related domains. However, the
performance of INR is heavily influenced by the choice of the nonlinear
activation function used in its multilayer perceptron (MLP) architecture.
Multiple nonlinearities have been investigated; yet, current INRs face
limitations in capturing high-frequency components, diverse signal types, and
handling inverse problems. We have identified that these problems can be
greatly alleviated by introducing a paradigm shift in INRs. We find that an
architecture with learnable activations in initial layers can represent fine
details in the underlying signals. Specifically, we propose SL^{2}A-INR, a
hybrid network for INR with a single-layer learnable activation function,
prompting the effectiveness of traditional ReLU-based MLPs. Our method performs
superior across diverse tasks, including image representation, 3D shape
reconstructions, inpainting, single image super-resolution, CT reconstruction,
and novel view synthesis. Through comprehensive experiments, SL^{2}A-INR sets
new benchmarks in accuracy, quality, and convergence rates for INR.Summary
AI-Generated Summary