Anweisungsgesteuerte autoregressive neuronale Netzwerkparametererzeugung
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Autoren: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Zusammenfassung
Das Lernen, Parameter von neuronalen Netzwerken basierend auf Aufgabenbeschreibungen und Architekturspezifikationen zu generieren, ist entscheidend für die Verbesserung der Modellanpassungsfähigkeit und des Transferlernens. Bestehende Methoden, insbesondere solche, die auf Diffusionsmodellen basieren, leiden unter begrenzter Skalierbarkeit bei großen Architekturen, Starrheit im Umgang mit variierenden Netzwerktiefen und einer fragmentierten Parametergenerierung, die die Kohärenz zwischen den Schichten untergräbt. In dieser Arbeit schlagen wir IGPG (Instruction Guided Parameter Generation) vor, ein autoregressives Framework, das die Parametersynthese über verschiedene Aufgaben und Architekturen vereinheitlicht. IGPG nutzt ein VQ-VAE und ein autoregressives Modell, um Parameter neuronaler Netzwerke basierend auf Aufgabenanweisungen, Datensätzen und Architekturdetails zu generieren. Durch die autoregressive Generierung von Tokens für die Gewichte neuronaler Netzwerke gewährleistet IGPG die Kohärenz zwischen den Schichten und ermöglicht eine effiziente Anpassung über Modelle und Datensätze hinweg. Auf der Token-Ebene arbeitend, erfasst IGPG effektiv komplexe Parameterverteilungen, die aus einem breiten Spektrum vortrainierter Modelle aggregiert wurden. Umfangreiche Experimente auf mehreren Vision-Datensätzen zeigen, dass IGPG verschiedene vortrainierte Modelle in ein einziges, flexibles generatives Framework integriert. Die synthetisierten Parameter erzielen eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu modernsten Methoden, insbesondere in Bezug auf Skalierbarkeit und Effizienz bei der Anwendung auf große Architekturen. Diese Ergebnisse unterstreichen das Potenzial von IGPG als leistungsstarkes Werkzeug für die Abfrage vortrainierter Gewichte, die Modellauswahl und die schnelle feinabstimmung für spezifische Aufgaben.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary