Entropie als structurele prior: Hoe een log-barrière op de DiT-geloofsruimte muzikale diversiteit en ontwikkeling aanstuurt

Samenvatting

Op vertrouwen gebaseerde verliesweging wordt doorgaans vermeden in generatieve modellen omdat het fouten versnelt wanneer het model met overtuiging fout zit, maar deze intuïtie gaat niet op bij gesuperviseerde diffusietraining. Wij introduceren de Eisbach-logbarrière, een parameterloze weging afgeleid van de entropie van de ruimtelijke energieverdeling van de DiT-output: hoge entropie dempt de gradiënt, terwijl lage entropie deze behoudt. Toegepast op LoRA-fijnafstemming van Stable Audio 3 Medium op MusicCaps levert dit onverwacht een sterkere thematische ontwikkeling, duidelijkere akoestische differentiatie en hogere textuurdiversiteit dan ongewogen training, het tegenovergestelde van modusinstorting. Dit werkt omdat bij gesuperviseerde diffusie de gradiëntrichting is vastgelegd op de grondwaarheid, zodat vertrouwen alleen de stapgrootte schaalt, en omdat temporele entropie vlakke monsters onderdrukt terwijl contrastrijke behouden blijven. Het resultaat is een online, zelfreferentieel datacurriculum dat puur uit de voorwaartse doorgang voortkomt, met geanalyseerde ruisniveaudynamiek en toetsbare voorspellingen.

English

Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the model is confidently wrong, but this intuition breaks down in supervised diffusion training. We introduce the Eisbach log-barrier, a parameter-free weight derived from the entropy of the DiT output's spatial energy distribution: high entropy damps the gradient, while low entropy preserves it. Applied to LoRA fine-tuning of Stable Audio 3 Medium on MusicCaps, it unexpectedly yields stronger thematic development, clearer acoustic differentiation, and higher textural diversity than unweighted training, the opposite of mode collapse. This works because in supervised diffusion the gradient direction is locked to ground truth, so confidence only scales the step size, and because temporal entropy downweights flat samples while preserving high-contrast ones. The result is an online, self-referential data curriculum that emerges purely from the forward pass, with analyzed noise-level dynamics and testable predictions.