Geração de Parâmetros de Rede Neural Autoregressiva Orientada por Instruções
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Autores: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Resumo
Aprender a gerar parâmetros de redes neurais condicionados a descrições de tarefas e especificações de arquitetura é fundamental para avançar a adaptabilidade de modelos e o aprendizado por transferência. Métodos existentes, especialmente aqueles baseados em modelos de difusão, sofrem com escalabilidade limitada para arquiteturas grandes, rigidez no tratamento de profundidades variáveis de rede e geração de parâmetros desconexa que prejudica a coerência entre camadas. Neste trabalho, propomos o IGPG (Instruction Guided Parameter Generation), um framework autoregressivo que unifica a síntese de parâmetros em diversas tarefas e arquiteturas. O IGPG utiliza um VQ-VAE e um modelo autoregressivo para gerar parâmetros de redes neurais, condicionados a instruções de tarefa, conjunto de dados e detalhes de arquitetura. Ao gerar tokens dos pesos da rede neural de forma autoregressiva, o IGPG garante coerência entre camadas e permite uma adaptação eficiente entre modelos e conjuntos de dados. Operando no nível de tokens, o IGPG captura efetivamente distribuições complexas de parâmetros agregadas de um amplo espectro de modelos pré-treinados. Experimentos extensivos em múltiplos conjuntos de dados de visão demonstram que o IGPG consolida diversos modelos pré-treinados em um único framework generativo flexível. Os parâmetros sintetizados alcançam desempenho competitivo ou superior em relação aos métodos state-of-the-art, especialmente em termos de escalabilidade e eficiência quando aplicados a arquiteturas grandes. Esses resultados destacam o potencial do IGPG como uma ferramenta poderosa para recuperação de pesos pré-treinados, seleção de modelos e ajuste fino rápido para tarefas específicas.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary