지시어 기반 자기회귀 신경망 매개변수 생성
Instruction-Guided Autoregressive Neural Network Parameter Generation
April 2, 2025
저자: Soro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang
cs.AI
초록
작업 설명과 아키텍처 사양에 따라 신경망 매개변수를 생성하는 방법을 학습하는 것은 모델의 적응성과 전이 학습을 발전시키는 데 핵심적입니다. 기존 방법론, 특히 확산 모델(diffusion models)에 기반한 방법들은 대규모 아키텍처로의 확장성 부족, 다양한 네트워크 깊이를 처리하는 데 있어 경직성, 그리고 계층 간 일관성을 해치는 분리된 매개변수 생성 등의 한계를 가지고 있습니다. 본 연구에서는 IGPG(Instruction Guided Parameter Generation)를 제안합니다. IGPG는 다양한 작업과 아키텍처에 걸쳐 매개변수 합성을 통합하는 자기회귀(autoregressive) 프레임워크입니다. IGPG는 VQ-VAE와 자기회귀 모델을 활용하여 작업 지시, 데이터셋, 아키텍처 세부 사항에 따라 신경망 매개변수를 생성합니다. 신경망 가중치 토큰을 자기회귀적으로 생성함으로써, IGPG는 계층 간 일관성을 보장하고 모델 및 데이터셋 간 효율적인 적응을 가능하게 합니다. 토큰 수준에서 작동하는 IGPG는 다양한 사전 학습된 모델로부터 집계된 복잡한 매개변수 분포를 효과적으로 포착합니다. 여러 비전 데이터셋에서의 광범위한 실험을 통해 IGPG가 다양한 사전 학습된 모델을 단일의 유연한 생성 프레임워크로 통합함을 입증했습니다. 합성된 매개변수는 특히 대규모 아키텍처에 적용할 때 확장성과 효율성 측면에서 최신 방법론들과 비교하여 경쟁력 있거나 우수한 성능을 달성했습니다. 이러한 결과는 IGPG가 사전 학습된 가중치 검색, 모델 선택, 그리고 작업별 빠른 미세 조정을 위한 강력한 도구로서의 잠재력을 강조합니다.
English
Learning to generate neural network parameters conditioned on task
descriptions and architecture specifications is pivotal for advancing model
adaptability and transfer learning. Existing methods especially those based on
diffusion models suffer from limited scalability to large architectures,
rigidity in handling varying network depths, and disjointed parameter
generation that undermines inter-layer coherence. In this work, we propose IGPG
(Instruction Guided Parameter Generation), an autoregressive framework that
unifies parameter synthesis across diverse tasks and architectures. IGPG
leverages a VQ-VAE and an autoregressive model to generate neural network
parameters, conditioned on task instructions, dataset, and architecture
details. By autoregressively generating neural network weights' tokens, IGPG
ensures inter-layer coherence and enables efficient adaptation across models
and datasets. Operating at the token level, IGPG effectively captures complex
parameter distributions aggregated from a broad spectrum of pretrained models.
Extensive experiments on multiple vision datasets demonstrate that IGPG
consolidates diverse pretrained models into a single, flexible generative
framework. The synthesized parameters achieve competitive or superior
performance relative to state-of-the-art methods, especially in terms of
scalability and efficiency when applied to large architectures. These results
underscore ICPG potential as a powerful tool for pretrained weight retrieval,
model selection, and rapid task-specific fine-tuning.Summary
AI-Generated Summary