Efficiënte training van generatieve modellen via ingebedde representatie-opwarming
Efficient Generative Model Training via Embedded Representation Warmup
April 14, 2025
Auteurs: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin
cs.AI
Samenvatting
Diffusiemodellen blinken uit in het genereren van hoogdimensionale data, maar blijven achter in trainings efficiëntie en representatiekwaliteit in vergelijking met zelfsupervisie methoden. We identificeren een belangrijk knelpunt: het onderbenutten van hoogwaardige, semantisch rijke representaties tijdens de training vertraagt de convergentie aanzienlijk. Onze systematische analyse onthult een kritieke representatieverwerkingsregio – voornamelijk in de vroege lagen – waar semantisch en structureel patroonleren plaatsvindt voordat generatie kan optreden. Om dit aan te pakken, stellen we Embedded Representation Warmup (ERW) voor, een plug-and-play framework waarin in de eerste fase de ERW-module dient als een opwarmfase die de vroege lagen van het diffusiemodel initialiseert met hoogwaardige, voorgetrainde representaties. Deze opwarmfase minimaliseert de last van het leren van representaties vanaf nul, waardoor convergentie wordt versneld en prestaties worden verbeterd. Onze theoretische analyse toont aan dat de effectiviteit van ERW afhangt van de precieze integratie in specifieke neurale netwerklagen – de representatieverwerkingsregio genoemd – waar het model voornamelijk feature-representaties verwerkt en transformeert voor latere generatie. We stellen verder vast dat ERW niet alleen de trainingsconvergentie versnelt, maar ook de representatiekwaliteit verbetert: empirisch bereikt onze methode een 40-voudige versnelling in trainingssnelheid vergeleken met REPA, de huidige state-of-the-art methoden. Code is beschikbaar op https://github.com/LINs-lab/ERW.
English
Diffusion models excel at generating high-dimensional data but fall short in
training efficiency and representation quality compared to self-supervised
methods. We identify a key bottleneck: the underutilization of high-quality,
semantically rich representations during training notably slows down
convergence. Our systematic analysis reveals a critical representation
processing region -- primarily in the early layers -- where semantic and
structural pattern learning takes place before generation can occur. To address
this, we propose Embedded Representation Warmup (ERW), a plug-and-play
framework where in the first stage we get the ERW module serves as a warmup
that initializes the early layers of the diffusion model with high-quality,
pretrained representations. This warmup minimizes the burden of learning
representations from scratch, thereby accelerating convergence and boosting
performance. Our theoretical analysis demonstrates that ERW's efficacy depends
on its precise integration into specific neural network layers -- termed the
representation processing region -- where the model primarily processes and
transforms feature representations for later generation. We further establish
that ERW not only accelerates training convergence but also enhances
representation quality: empirically, our method achieves a 40times
acceleration in training speed compared to REPA, the current state-of-the-art
methods. Code is available at https://github.com/LINs-lab/ERW.