Генерация параметров авторегрессионной нейронной сети с управлением по инструкциям
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
Авторы: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
Аннотация
Обучение генерации параметров нейронных сетей, обусловленных описаниями задач и спецификациями архитектуры, является ключевым для повышения адаптируемости моделей и улучшения трансферного обучения. Существующие методы, особенно основанные на диффузионных моделях, страдают от ограниченной масштабируемости для крупных архитектур, жесткости в обработке различных глубин сети и разрозненной генерации параметров, что подрывает согласованность между слоями. В данной работе мы предлагаем IGPG (Instruction Guided Parameter Generation) — авторегрессионную структуру, которая объединяет синтез параметров для различных задач и архитектур. IGPG использует VQ-VAE и авторегрессионную модель для генерации параметров нейронных сетей, обусловленных инструкциями задач, данными и деталями архитектуры. Авторегрессионно генерируя токены весов нейронных сетей, IGPG обеспечивает согласованность между слоями и позволяет эффективно адаптироваться к различным моделям и наборам данных. Работая на уровне токенов, IGPG эффективно захватывает сложные распределения параметров, агрегированные из широкого спектра предобученных моделей. Многочисленные эксперименты на нескольких наборах визуальных данных демонстрируют, что IGPG объединяет разнообразные предобученные модели в единую гибкую генеративную структуру. Синтезированные параметры достигают конкурентоспособной или превосходящей производительности по сравнению с современными методами, особенно в плане масштабируемости и эффективности при применении к крупным архитектурам. Эти результаты подчеркивают потенциал IGPG как мощного инструмента для извлечения предобученных весов, выбора моделей и быстрой тонкой настройки для конкретных задач.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary