Metamorfose Neural
Neural Metamorphosis
October 10, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI
Resumo
Este artigo apresenta um novo paradigma de aprendizado denominado Metamorfose Neural (NeuMeta), que tem como objetivo construir redes neurais auto-morfáveis. Ao contrário de criar modelos separados para diferentes arquiteturas ou tamanhos, o NeuMeta aprende diretamente o espaço contínuo de pesos das redes neurais. Uma vez treinado, podemos amostrar pesos para redes de qualquer tamanho diretamente do espaço, mesmo para configurações previamente não vistas, sem a necessidade de retrabalho. Para alcançar esse objetivo ambicioso, o NeuMeta treina funções neurais implícitas como hiper-redes. Elas aceitam coordenadas dentro do espaço do modelo como entrada e geram valores de peso correspondentes no espaço. Em outras palavras, a função implícita é aprendida de forma que os pesos previstos tenham bom desempenho em vários tamanhos de modelos. Ao treinar esses modelos, observamos que o desempenho final está intimamente relacionado com a suavidade do espaço aprendido. Em busca de aprimorar essa suavidade, empregamos duas estratégias. Primeiramente, permutamos matrizes de pesos para obter suavidade intra-modelo, resolvendo o problema do Caminho Hamiltoniano Mais Curto. Além disso, adicionamos ruído às coordenadas de entrada ao treinar a função implícita, garantindo que modelos de vários tamanhos apresentem saídas consistentes. Dessa forma, o NeuMeta apresenta resultados promissores na síntese de parâmetros para várias configurações de rede. Nossos extensivos testes em classificação de imagens, segmentação semântica e geração de imagens revelam que o NeuMeta mantém o desempenho em tamanho total mesmo com uma taxa de compressão de 75%.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis
(NeuMeta), which aims to build self-morphable neural networks. Contrary to
crafting separate models for different architectures or sizes, NeuMeta directly
learns the continuous weight manifold of neural networks. Once trained, we can
sample weights for any-sized network directly from the manifold, even for
previously unseen configurations, without retraining. To achieve this ambitious
goal, NeuMeta trains neural implicit functions as hypernetworks. They accept
coordinates within the model space as input, and generate corresponding weight
values on the manifold. In other words, the implicit function is learned in a
way, that the predicted weights is well-performed across various models sizes.
In training those models, we notice that, the final performance closely relates
on smoothness of the learned manifold. In pursuit of enhancing this smoothness,
we employ two strategies. First, we permute weight matrices to achieve
intra-model smoothness, by solving the Shortest Hamiltonian Path problem.
Besides, we add a noise on the input coordinates when training the implicit
function, ensuring models with various sizes shows consistent outputs. As such,
NeuMeta shows promising results in synthesizing parameters for various network
configurations. Our extensive tests in image classification, semantic
segmentation, and image generation reveal that NeuMeta sustains full-size
performance even at a 75% compression rate.Summary
AI-Generated Summary