Neuronale Metamorphose
Neural Metamorphosis
October 10, 2024
Autoren: Xingyi Yang, Xinchao Wang
cs.AI
Zusammenfassung
Dieses Paper stellt ein neues Lernparadigma namens Neural Metamorphosis (NeuMeta) vor, das darauf abzielt, selbstveränderliche neuronale Netzwerke aufzubauen. Im Gegensatz zur Erstellung separater Modelle für verschiedene Architekturen oder Größen lernt NeuMeta direkt das kontinuierliche Gewichtsmanifold neuronaler Netzwerke. Nach dem Training können wir Gewichte für Netzwerke jeder Größe direkt aus dem Manifold sampeln, selbst für zuvor nicht gesehene Konfigurationen, ohne erneutes Training. Um dieses ehrgeizige Ziel zu erreichen, trainiert NeuMeta neuronale implizite Funktionen als Hypernetzwerke. Sie akzeptieren Koordinaten im Modellraum als Eingabe und generieren entsprechende Gewichtswerte im Manifold. Mit anderen Worten wird die implizite Funktion so gelernt, dass die vorhergesagten Gewichte über verschiedene Modellgrößen hinweg gut funktionieren. Beim Training dieser Modelle stellen wir fest, dass die endgültige Leistung eng mit der Glattheit des gelernten Manifolds zusammenhängt. Um diese Glattheit zu verbessern, verwenden wir zwei Strategien. Erstens permutieren wir Gewichtsmatrizen, um Intra-Modell-Glattheit zu erreichen, indem wir das Problem des kürzesten Hamiltonschen Pfads lösen. Darüber hinaus fügen wir beim Training der impliziten Funktion eine Rauschkomponente zu den Eingabekoordinaten hinzu, um sicherzustellen, dass Modelle mit verschiedenen Größen konsistente Ausgaben zeigen. Auf diese Weise zeigt NeuMeta vielversprechende Ergebnisse bei der Synthese von Parametern für verschiedene Netzwerkkonfigurationen. Unsere umfangreichen Tests in der Bildklassifizierung, semantischen Segmentierung und Bildgenerierung zeigen, dass NeuMeta die Leistung in voller Größe auch bei einer Kompressionsrate von 75 % aufrechterhält.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary