Métamorphose neuronale
Neural Metamorphosis
October 10, 2024
Auteurs: Xingyi Yang, Xinchao Wang
cs.AI
Résumé
Cet article présente un nouveau paradigme d'apprentissage appelé Métamorphose Neuronale (NeuMeta), qui vise à construire des réseaux neuronaux auto-morphables. Contrairement à la création de modèles distincts pour différentes architectures ou tailles, NeuMeta apprend directement le continuum des poids des réseaux neuronaux. Une fois entraîné, nous pouvons échantillonner des poids pour un réseau de n'importe quelle taille directement à partir du continuum, même pour des configurations jamais vues auparavant, sans re-entraînement. Pour atteindre cet objectif ambitieux, NeuMeta entraîne des fonctions implicites neuronales en tant qu'hyper-réseaux. Ils acceptent des coordonnées dans l'espace du modèle en tant qu'entrée et génèrent des valeurs de poids correspondantes sur le continuum. En d'autres termes, la fonction implicite est apprise de manière à ce que les poids prédits soient performants pour différentes tailles de modèles. En entraînant ces modèles, nous remarquons que la performance finale est étroitement liée à la régularité du continuum appris. Dans le but d'améliorer cette régularité, nous utilisons deux stratégies. Tout d'abord, nous permutons les matrices de poids pour obtenir une régularité intra-modèle, en résolvant le problème du plus court chemin hamiltonien. De plus, nous ajoutons du bruit aux coordonnées d'entrée lors de l'entraînement de la fonction implicite, garantissant que les modèles de différentes tailles affichent des sorties cohérentes. Ainsi, NeuMeta montre des résultats prometteurs dans la synthèse de paramètres pour diverses configurations de réseaux. Nos tests approfondis en classification d'images, segmentation sémantique et génération d'images révèlent que NeuMeta maintient des performances à taille réelle même à un taux de compression de 75%.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary