L'entropie comme a priori structurel : comment une barrière logarithmique sur l'espace de croyance DiT favorise la diversité et le développement musicaux

Résumé

La pondération de la perte basée sur la confiance est généralement évitée dans les modèles génératifs car elle accélère les erreurs lorsque le modèle est confiant mais erroné, mais cette intuition ne tient pas dans l'apprentissage supervisé par diffusion. Nous introduisons la barrière logarithmique d'Eisbach, un poids sans paramètre dérivé de l'entropie de la distribution d'énergie spatiale de la sortie du DiT : une entropie élevée atténue le gradient, tandis qu'une entropie faible le préserve. Appliquée au fine-tuning LoRA de Stable Audio 3 Medium sur MusicCaps, elle produit de manière inattendue un développement thématique plus fort, une différenciation acoustique plus nette et une diversité texturale plus élevée que l'entraînement non pondéré, soit l'inverse de l'effondrement modal. Cela fonctionne parce que dans la diffusion supervisée, la direction du gradient est verrouillée sur la vérité terrain, de sorte que la confiance ne fait que mettre à l'échelle la taille du pas, et parce que l'entropie temporelle réduit le poids des échantillons plats tout en préservant ceux à fort contraste. Le résultat est un programme de données auto-référentiel en ligne qui émerge uniquement du passage avant, avec une analyse des dynamiques de niveau de bruit et des prédictions testables.

English

Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the model is confidently wrong, but this intuition breaks down in supervised diffusion training. We introduce the Eisbach log-barrier, a parameter-free weight derived from the entropy of the DiT output's spatial energy distribution: high entropy damps the gradient, while low entropy preserves it. Applied to LoRA fine-tuning of Stable Audio 3 Medium on MusicCaps, it unexpectedly yields stronger thematic development, clearer acoustic differentiation, and higher textural diversity than unweighted training, the opposite of mode collapse. This works because in supervised diffusion the gradient direction is locked to ground truth, so confidence only scales the step size, and because temporal entropy downweights flat samples while preserving high-contrast ones. The result is an online, self-referential data curriculum that emerges purely from the forward pass, with analyzed noise-level dynamics and testable predictions.