Энтропия как структурный априор: как логарифмический барьер в пространстве убеждений DiT стимулирует музыкальное разнообразие и развитие

Аннотация

Обычно избегают использования взвешивания потерь на основе уверенности в генеративных моделях, поскольку оно ускоряет накопление ошибок, когда модель уверенно ошибается, однако эта интуиция нарушается в случае контролируемого обучения диффузионных моделей. Мы предлагаем логарифмический барьер Эйсбаха — параметрически свободный вес, выведенный из энтропии пространственного энергетического распределения выхода DiT: высокая энтропия ослабляет градиент, а низкая — сохраняет его. Применение этого подхода к тонкой настройке Stable Audio 3 Medium с помощью LoRA на MusicCaps неожиданно приводит к более сильному тематическому развитию, более чёткой акустической дифференциации и более высокому текстурному разнообразию по сравнению с обучением без взвешивания — противоположность коллапсу моды. Это работает потому, что в контролируемой диффузии направление градиента привязано к истинному значению, поэтому уверенность лишь масштабирует размер шага, а также потому, что временна́я энтропия снижает вес плоских образцов, сохраняя при этом высококонтрастные. В результате возникает онлайн-самореферентный учебный набор данных, который формируется исключительно за счёт прямого прохода, с проанализированной динамикой уровней шума и проверяемыми предсказаниями.

English

Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the model is confidently wrong, but this intuition breaks down in supervised diffusion training. We introduce the Eisbach log-barrier, a parameter-free weight derived from the entropy of the DiT output's spatial energy distribution: high entropy damps the gradient, while low entropy preserves it. Applied to LoRA fine-tuning of Stable Audio 3 Medium on MusicCaps, it unexpectedly yields stronger thematic development, clearer acoustic differentiation, and higher textural diversity than unweighted training, the opposite of mode collapse. This works because in supervised diffusion the gradient direction is locked to ground truth, so confidence only scales the step size, and because temporal entropy downweights flat samples while preserving high-contrast ones. The result is an online, self-referential data curriculum that emerges purely from the forward pass, with analyzed noise-level dynamics and testable predictions.