Generación de Parámetros de Redes Neuronales Autoregresivas Guiadas por Instrucciones
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Autores: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Resumen
Aprender a generar parámetros de redes neuronales condicionados a descripciones de tareas y especificaciones de arquitectura es fundamental para avanzar en la adaptabilidad de modelos y el aprendizaje por transferencia. Los métodos existentes, especialmente aquellos basados en modelos de difusión, presentan limitaciones en su escalabilidad a arquitecturas grandes, rigidez para manejar profundidades de red variables y generación de parámetros desarticulada que socava la coherencia entre capas. En este trabajo, proponemos IGPG (Generación de Parámetros Guiada por Instrucciones), un marco autoregresivo que unifica la síntesis de parámetros en diversas tareas y arquitecturas. IGPG aprovecha un VQ-VAE y un modelo autoregresivo para generar parámetros de redes neuronales, condicionados por instrucciones de tarea, conjuntos de datos y detalles de arquitectura. Al generar de manera autoregresiva los tokens de los pesos de la red neuronal, IGPG asegura la coherencia entre capas y permite una adaptación eficiente entre modelos y conjuntos de datos. Al operar a nivel de tokens, IGPG captura efectivamente distribuciones complejas de parámetros agregadas a partir de un amplio espectro de modelos preentrenados. Experimentos exhaustivos en múltiples conjuntos de datos de visión demuestran que IGPG consolida diversos modelos preentrenados en un único marco generativo flexible. Los parámetros sintetizados logran un rendimiento competitivo o superior en comparación con métodos de vanguardia, especialmente en términos de escalabilidad y eficiencia cuando se aplican a arquitecturas grandes. Estos resultados subrayan el potencial de IGPG como una herramienta poderosa para la recuperación de pesos preentrenados, selección de modelos y ajuste fino rápido específico para tareas.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary