Entropía como prior estructural: Cómo una barrera logarítmica en el espacio de creencias de DiT impulsa la diversidad y el desarrollo musical
Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development
June 5, 2026
Autores: Zixi Li, Youzhen Li
cs.AI
Resumen
En los modelos generativos, la ponderación de pérdida basada en confianza suele evitarse porque acelera los errores cuando el modelo está confiadamente equivocado, pero esta intuición se desmorona en el entrenamiento supervisado de difusión. Introducimos la barrera logarítmica de Eisbach, un peso sin parámetros derivado de la entropía de la distribución espacial de energía de la salida del DiT: una entropía alta amortigua el gradiente, mientras que una entropía baja lo preserva. Aplicada al ajuste fino LoRA de Stable Audio 3 Medium en MusicCaps, produce inesperadamente un desarrollo temático más fuerte, una diferenciación acústica más clara y una mayor diversidad textural en comparación con el entrenamiento no ponderado, lo opuesto al colapso de modos. Esto funciona porque, en la difusión supervisada, la dirección del gradiente está fijada a la verdad fundamental, por lo que la confianza solo escala el tamaño del paso, y porque la entropía temporal reduce la ponderación de muestras planas mientras preserva las de alto contraste. El resultado es un currículo de datos en línea, autorreferencial, que emerge puramente del pase directo, con dinámicas de nivel de ruido analizadas y predicciones comprobables.
English
Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the model is confidently wrong, but this intuition breaks down in supervised diffusion training. We introduce the Eisbach log-barrier, a parameter-free weight derived from the entropy of the DiT output's spatial energy distribution: high entropy damps the gradient, while low entropy preserves it. Applied to LoRA fine-tuning of Stable Audio 3 Medium on MusicCaps, it unexpectedly yields stronger thematic development, clearer acoustic differentiation, and higher textural diversity than unweighted training, the opposite of mode collapse. This works because in supervised diffusion the gradient direction is locked to ground truth, so confidence only scales the step size, and because temporal entropy downweights flat samples while preserving high-contrast ones. The result is an online, self-referential data curriculum that emerges purely from the forward pass, with analyzed noise-level dynamics and testable predictions.