Instructie-Gestuurde Autoregressieve Neurale Netwerk Parameter Generatie
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Auteurs: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Samenvatting
Het leren genereren van neurale netwerkparameters, geconditioneerd op taakbeschrijvingen en architectuurspecificaties, is cruciaal voor het bevorderen van modelaanpasbaarheid en transfer learning. Bestaande methoden, met name die gebaseerd op diffusiemodellen, kampen met beperkte schaalbaarheid naar grote architecturen, rigiditeit bij het omgaan met variërende netwerkdieptes, en onsamenhangende parametergeneratie die de samenhang tussen lagen ondermijnt. In dit werk stellen we IGPG (Instruction Guided Parameter Generation) voor, een autoregressief raamwerk dat parametersynthese verenigt over diverse taken en architecturen. IGPG maakt gebruik van een VQ-VAE en een autoregressief model om neurale netwerkparameters te genereren, geconditioneerd op taakinstructies, dataset en architectuurdetails. Door autoregressief tokens van neurale netwerkgewichten te genereren, zorgt IGPG voor samenhang tussen lagen en maakt het efficiënte aanpassing mogelijk over modellen en datasets heen. Door op tokenniveau te werken, vangt IGPG effectief complexe parameterverdelingen op die zijn samengevoegd uit een breed spectrum van vooraf getrainde modellen. Uitgebreide experimenten op meerdere vision-datasets tonen aan dat IGPG diverse vooraf getrainde modellen consolideert in een enkel, flexibel generatief raamwerk. De gesynthetiseerde parameters behalen competitieve of superieure prestaties ten opzichte van state-of-the-art methoden, met name wat betreft schaalbaarheid en efficiëntie bij toepassing op grote architecturen. Deze resultaten onderstrepen het potentieel van IGPG als een krachtig hulpmiddel voor het ophalen van vooraf getrainde gewichten, modelselectie en snelle taakspecifieke fine-tuning.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary