ChatPaper.aiChatPaper

Efficiënte training van generatieve modellen via ingebedde representatie-opwarming

Efficient Generative Model Training via Embedded Representation Warmup

April 14, 2025
Auteurs: Deyuan Liu, Peng Sun, Xufeng Li, Tao Lin
cs.AI

Samenvatting

Diffusiemodellen blinken uit in het genereren van hoogdimensionale data, maar blijven achter in trainings efficiëntie en representatiekwaliteit in vergelijking met zelfsupervisie methoden. We identificeren een belangrijk knelpunt: het onderbenutten van hoogwaardige, semantisch rijke representaties tijdens de training vertraagt de convergentie aanzienlijk. Onze systematische analyse onthult een kritieke representatieverwerkingsregio – voornamelijk in de vroege lagen – waar semantisch en structureel patroonleren plaatsvindt voordat generatie kan optreden. Om dit aan te pakken, stellen we Embedded Representation Warmup (ERW) voor, een plug-and-play framework waarin in de eerste fase de ERW-module dient als een opwarmfase die de vroege lagen van het diffusiemodel initialiseert met hoogwaardige, voorgetrainde representaties. Deze opwarmfase minimaliseert de last van het leren van representaties vanaf nul, waardoor convergentie wordt versneld en prestaties worden verbeterd. Onze theoretische analyse toont aan dat de effectiviteit van ERW afhangt van de precieze integratie in specifieke neurale netwerklagen – de representatieverwerkingsregio genoemd – waar het model voornamelijk feature-representaties verwerkt en transformeert voor latere generatie. We stellen verder vast dat ERW niet alleen de trainingsconvergentie versnelt, maar ook de representatiekwaliteit verbetert: empirisch bereikt onze methode een 40-voudige versnelling in trainingssnelheid vergeleken met REPA, de huidige state-of-the-art methoden. Code is beschikbaar op https://github.com/LINs-lab/ERW.
English
Diffusion models excel at generating high-dimensional data but fall short in training efficiency and representation quality compared to self-supervised methods. We identify a key bottleneck: the underutilization of high-quality, semantically rich representations during training notably slows down convergence. Our systematic analysis reveals a critical representation processing region -- primarily in the early layers -- where semantic and structural pattern learning takes place before generation can occur. To address this, we propose Embedded Representation Warmup (ERW), a plug-and-play framework where in the first stage we get the ERW module serves as a warmup that initializes the early layers of the diffusion model with high-quality, pretrained representations. This warmup minimizes the burden of learning representations from scratch, thereby accelerating convergence and boosting performance. Our theoretical analysis demonstrates that ERW's efficacy depends on its precise integration into specific neural network layers -- termed the representation processing region -- where the model primarily processes and transforms feature representations for later generation. We further establish that ERW not only accelerates training convergence but also enhances representation quality: empirically, our method achieves a 40times acceleration in training speed compared to REPA, the current state-of-the-art methods. Code is available at https://github.com/LINs-lab/ERW.
PDF122April 16, 2025