Нейронное преобразование
Neural Metamorphosis
October 10, 2024
Авторы: Xingyi Yang, Xinchao Wang
cs.AI
Аннотация
Данный документ представляет новую парадигму обучения, названную Нейроморфоза нейронных сетей (NeuMeta), которая направлена на создание самоморфных нейронных сетей. В отличие от создания отдельных моделей для различных архитектур или размеров, NeuMeta непосредственно обучает непрерывное весовое многообразие нейронных сетей. После обучения мы можем выбирать веса для сетей любого размера непосредственно из многообразия, даже для ранее не встречавшихся конфигураций, без повторного обучения. Для достижения этой амбициозной цели NeuMeta обучает нейронные неявные функции как гиперсети. Они принимают координаты в пределах пространства модели в качестве входных данных и генерируют соответствующие значения весов на многообразии. Другими словами, неявная функция обучается таким образом, что предсказанные веса хорошо работают для различных размеров моделей. При обучении этих моделей мы замечаем, что окончательная производительность тесно связана с гладкостью изученного многообразия. Для улучшения этой гладкости мы используем две стратегии. Во-первых, мы переставляем матрицы весов для достижения внутримодельной гладкости, решая проблему кратчайшего гамильтонова пути. Кроме того, мы добавляем шум на входные координаты при обучении неявной функции, обеспечивая согласованные выводы для моделей различных размеров. Таким образом, NeuMeta показывает многообещающие результаты в синтезе параметров для различных конфигураций сетей. Наши обширные тесты в классификации изображений, семантической сегментации и генерации изображений показывают, что NeuMeta сохраняет производительность полного размера даже при степени сжатия 75%.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary