Generación de Parámetros de Redes Neuronales Autoregresivas Guiadas por Instrucciones

Resumen

Aprender a generar parámetros de redes neuronales condicionados a descripciones de tareas y especificaciones de arquitectura es fundamental para avanzar en la adaptabilidad de modelos y el aprendizaje por transferencia. Los métodos existentes, especialmente aquellos basados en modelos de difusión, presentan limitaciones en su escalabilidad a arquitecturas grandes, rigidez para manejar profundidades de red variables y generación de parámetros desarticulada que socava la coherencia entre capas. En este trabajo, proponemos IGPG (Generación de Parámetros Guiada por Instrucciones), un marco autoregresivo que unifica la síntesis de parámetros en diversas tareas y arquitecturas. IGPG aprovecha un VQ-VAE y un modelo autoregresivo para generar parámetros de redes neuronales, condicionados por instrucciones de tarea, conjuntos de datos y detalles de arquitectura. Al generar de manera autoregresiva los tokens de los pesos de la red neuronal, IGPG asegura la coherencia entre capas y permite una adaptación eficiente entre modelos y conjuntos de datos. Al operar a nivel de tokens, IGPG captura efectivamente distribuciones complejas de parámetros agregadas a partir de un amplio espectro de modelos preentrenados. Experimentos exhaustivos en múltiples conjuntos de datos de visión demuestran que IGPG consolida diversos modelos preentrenados en un único marco generativo flexible. Los parámetros sintetizados logran un rendimiento competitivo o superior en comparación con métodos de vanguardia, especialmente en términos de escalabilidad y eficiencia cuando se aplican a arquitecturas grandes. Estos resultados subrayan el potencial de IGPG como una herramienta poderosa para la recuperación de pesos preentrenados, selección de modelos y ajuste fino rápido específico para tareas.

English

Learning to generate neural network parameters conditioned on task descriptions and architecture specifications is pivotal for advancing model adaptability and transfer learning. Existing methods especially those based on diffusion models suffer from limited scalability to large architectures, rigidity in handling varying network depths, and disjointed parameter generation that undermines inter-layer coherence. In this work, we propose IGPG (Instruction Guided Parameter Generation), an autoregressive framework that unifies parameter synthesis across diverse tasks and architectures. IGPG leverages a VQ-VAE and an autoregressive model to generate neural network parameters, conditioned on task instructions, dataset, and architecture details. By autoregressively generating neural network weights' tokens, IGPG ensures inter-layer coherence and enables efficient adaptation across models and datasets. Operating at the token level, IGPG effectively captures complex parameter distributions aggregated from a broad spectrum of pretrained models. Extensive experiments on multiple vision datasets demonstrate that IGPG consolidates diverse pretrained models into a single, flexible generative framework. The synthesized parameters achieve competitive or superior performance relative to state-of-the-art methods, especially in terms of scalability and efficiency when applied to large architectures. These results underscore ICPG potential as a powerful tool for pretrained weight retrieval, model selection, and rapid task-specific fine-tuning.

Generación de Parámetros de Redes Neuronales Autoregresivas Guiadas por Instrucciones

Instruction-Guided Autoregressive Neural Network Parameter Generation

Resumen

Support