Однослойная обучаемая активация для неявного нейронного представления (SL^{2}A-INR)
Single-Layer Learnable Activation for Implicit Neural Representation (SL^{2}A-INR)
September 17, 2024
Авторы: Moein Heidari, Reza Rezaeian, Reza Azad, Dorit Merhof, Hamid Soltanian-Zadeh, Ilker Hacihaliloglu
cs.AI
Аннотация
Неявное нейронное представление (INR), использующее нейронную сеть для преобразования координатного ввода в соответствующие атрибуты, в последнее время привело к значительным прорывам в нескольких областях, связанных с зрением. Однако производительность INR сильно зависит от выбора нелинейной функции активации, используемой в его многослойной перцептронной (MLP) архитектуре. Было исследовано несколько видов нелинейностей; однако текущие INR сталкиваются с ограничениями в захвате высокочастотных компонентов, различных типов сигналов и решении обратных задач. Мы выявили, что эти проблемы могут быть значительно смягчены путем внедрения парадигменного изменения в INR. Мы обнаружили, что архитектура с обучаемыми активациями в начальных слоях способна представлять мелкие детали в базовых сигналах. Конкретно, мы предлагаем SL^{2}A-INR, гибридную сеть для INR с активационной функцией, обучаемой в одном слое, способствуя эффективности традиционных MLP на основе ReLU. Наш метод продемонстрировал превосходство в различных задачах, включая представление изображений, восстановление 3D-форм, заполнение пропусков, увеличение разрешения одиночного изображения, восстановление КТ и синтез нового вида. Через обширные эксперименты SL^{2}A-INR устанавливает новые стандарты в точности, качестве и скорости сходимости для INR.
English
Implicit Neural Representation (INR), leveraging a neural network to
transform coordinate input into corresponding attributes, has recently driven
significant advances in several vision-related domains. However, the
performance of INR is heavily influenced by the choice of the nonlinear
activation function used in its multilayer perceptron (MLP) architecture.
Multiple nonlinearities have been investigated; yet, current INRs face
limitations in capturing high-frequency components, diverse signal types, and
handling inverse problems. We have identified that these problems can be
greatly alleviated by introducing a paradigm shift in INRs. We find that an
architecture with learnable activations in initial layers can represent fine
details in the underlying signals. Specifically, we propose SL^{2}A-INR, a
hybrid network for INR with a single-layer learnable activation function,
prompting the effectiveness of traditional ReLU-based MLPs. Our method performs
superior across diverse tasks, including image representation, 3D shape
reconstructions, inpainting, single image super-resolution, CT reconstruction,
and novel view synthesis. Through comprehensive experiments, SL^{2}A-INR sets
new benchmarks in accuracy, quality, and convergence rates for INR.