Génération de paramètres de réseaux de neurones autorégressifs guidée par instructions
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Auteurs: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Résumé
Apprendre à générer des paramètres de réseaux de neurones conditionnés par des descriptions de tâches et des spécifications d'architecture est essentiel pour faire progresser l'adaptabilité des modèles et l'apprentissage par transfert. Les méthodes existantes, en particulier celles basées sur les modèles de diffusion, souffrent d'une scalabilité limitée pour les grandes architectures, d'une rigidité dans la gestion des profondeurs de réseau variables, et d'une génération de paramètres disjointe qui compromet la cohérence inter-couches. Dans ce travail, nous proposons IGPG (Instruction Guided Parameter Generation), un cadre autoregressif qui unifie la synthèse de paramètres pour diverses tâches et architectures. IGPG exploite un VQ-VAE et un modèle autoregressif pour générer des paramètres de réseaux de neurones, conditionnés par des instructions de tâche, des données et des détails d'architecture. En générant de manière autoregressive les tokens des poids du réseau de neurones, IGPG assure la cohérence inter-couches et permet une adaptation efficace à travers les modèles et les jeux de données. Opérant au niveau des tokens, IGPG capture efficacement les distributions complexes de paramètres agrégées à partir d'un large spectre de modèles pré-entraînés. Des expériences approfondies sur plusieurs ensembles de données visuelles démontrent qu'IGPG consolide divers modèles pré-entraînés en un seul cadre génératif flexible. Les paramètres synthétisés atteignent des performances compétitives ou supérieures par rapport aux méthodes de pointe, en particulier en termes de scalabilité et d'efficacité lorsqu'ils sont appliqués à de grandes architectures. Ces résultats soulignent le potentiel d'IGPG en tant qu'outil puissant pour la récupération de poids pré-entraînés, la sélection de modèles et l'ajustement fin rapide spécifique à une tâche.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.