Metamorfosis Neural
Neural Metamorphosis
October 10, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI
Resumen
Este artículo presenta un nuevo paradigma de aprendizaje denominado Metamorfosis Neural (NeuMeta), que tiene como objetivo construir redes neuronales auto-morfables. Contrariamente a la creación de modelos separados para diferentes arquitecturas o tamaños, NeuMeta aprende directamente el continuo manifiesto de pesos de las redes neuronales. Una vez entrenado, podemos muestrear pesos para redes de cualquier tamaño directamente desde el manifiesto, incluso para configuraciones previamente no vistas, sin necesidad de volver a entrenar. Para lograr este objetivo ambicioso, NeuMeta entrena funciones implícitas neuronales como hiperredes. Estas aceptan coordenadas dentro del espacio del modelo como entrada y generan valores de peso correspondientes en el manifiesto. En otras palabras, la función implícita se aprende de tal manera que los pesos predichos se desempeñan bien en diferentes tamaños de modelos. Al entrenar esos modelos, observamos que el rendimiento final está estrechamente relacionado con la suavidad del manifiesto aprendido. En la búsqueda de mejorar esta suavidad, empleamos dos estrategias. Primero, permutamos las matrices de pesos para lograr suavidad intra-modelo, resolviendo el problema de la Ruta Hamiltoniana más corta. Además, agregamos ruido a las coordenadas de entrada al entrenar la función implícita, asegurando que los modelos con diferentes tamaños muestren salidas consistentes. De esta manera, NeuMeta muestra resultados prometedores en la síntesis de parámetros para diversas configuraciones de red. Nuestras extensas pruebas en clasificación de imágenes, segmentación semántica y generación de imágenes revelan que NeuMeta mantiene un rendimiento a tamaño completo incluso con una tasa de compresión del 75%.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary