ChatPaper.aiChatPaper

Metamorfose Neural

Neural Metamorphosis

October 10, 2024
Autores: Xingyi Yang, Xinchao Wang
cs.AI

Resumo

Este artigo apresenta um novo paradigma de aprendizado denominado Metamorfose Neural (NeuMeta), que tem como objetivo construir redes neurais auto-morfáveis. Ao contrário de criar modelos separados para diferentes arquiteturas ou tamanhos, o NeuMeta aprende diretamente o espaço contínuo de pesos das redes neurais. Uma vez treinado, podemos amostrar pesos para redes de qualquer tamanho diretamente do espaço, mesmo para configurações previamente não vistas, sem a necessidade de retrabalho. Para alcançar esse objetivo ambicioso, o NeuMeta treina funções neurais implícitas como hiper-redes. Elas aceitam coordenadas dentro do espaço do modelo como entrada e geram valores de peso correspondentes no espaço. Em outras palavras, a função implícita é aprendida de forma que os pesos previstos tenham bom desempenho em vários tamanhos de modelos. Ao treinar esses modelos, observamos que o desempenho final está intimamente relacionado com a suavidade do espaço aprendido. Em busca de aprimorar essa suavidade, empregamos duas estratégias. Primeiramente, permutamos matrizes de pesos para obter suavidade intra-modelo, resolvendo o problema do Caminho Hamiltoniano Mais Curto. Além disso, adicionamos ruído às coordenadas de entrada ao treinar a função implícita, garantindo que modelos de vários tamanhos apresentem saídas consistentes. Dessa forma, o NeuMeta apresenta resultados promissores na síntese de parâmetros para várias configurações de rede. Nossos extensivos testes em classificação de imagens, segmentação semântica e geração de imagens revelam que o NeuMeta mantém o desempenho em tamanho total mesmo com uma taxa de compressão de 75%.
English
This paper introduces a new learning paradigm termed Neural Metamorphosis (NeuMeta), which aims to build self-morphable neural networks. Contrary to crafting separate models for different architectures or sizes, NeuMeta directly learns the continuous weight manifold of neural networks. Once trained, we can sample weights for any-sized network directly from the manifold, even for previously unseen configurations, without retraining. To achieve this ambitious goal, NeuMeta trains neural implicit functions as hypernetworks. They accept coordinates within the model space as input, and generate corresponding weight values on the manifold. In other words, the implicit function is learned in a way, that the predicted weights is well-performed across various models sizes. In training those models, we notice that, the final performance closely relates on smoothness of the learned manifold. In pursuit of enhancing this smoothness, we employ two strategies. First, we permute weight matrices to achieve intra-model smoothness, by solving the Shortest Hamiltonian Path problem. Besides, we add a noise on the input coordinates when training the implicit function, ensuring models with various sizes shows consistent outputs. As such, NeuMeta shows promising results in synthesizing parameters for various network configurations. Our extensive tests in image classification, semantic segmentation, and image generation reveal that NeuMeta sustains full-size performance even at a 75% compression rate.

Summary

AI-Generated Summary

PDF83November 16, 2024