Entropia como um Prior Estrutural: Como uma Barreira Logarítmica no Espaço de Crenças do DiT Impulsiona a Diversidade e o Desenvolvimento Musical
Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development
June 5, 2026
Autores: Zixi Li, Youzhen Li
cs.AI
Resumo
A ponderação de perda baseada em confiança é geralmente evitada em modelos generativos porque acelera erros quando o modelo está confiantemente errado, mas essa intuição se desfaz no treinamento de difusão supervisionada. Apresentamos a barreira logarítmica de Eisbach, um peso livre de parâmetros derivado da entropia da distribuição espacial de energia da saída do DiT: alta entropia amortece o gradiente, enquanto baixa entropia o preserva. Aplicado ao ajuste fino via LoRA do Stable Audio 3 Medium no MusicCaps, inesperadamente resulta em desenvolvimento temático mais forte, diferenciação acústica mais clara e maior diversidade textural do que o treinamento não ponderado — o oposto do colapso de modo. Isso funciona porque, na difusão supervisionada, a direção do gradiente está travada à verdade fundamental, de modo que a confiança apenas escala o tamanho do passo, e porque a entropia temporal reduz o peso de amostras planas enquanto preserva as de alto contraste. O resultado é um currículo de dados on-line e autorreferente que emerge puramente da passagem direta, com dinâmicas de nível de ruído analisadas e previsões testáveis.
English
Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the model is confidently wrong, but this intuition breaks down in supervised diffusion training. We introduce the Eisbach log-barrier, a parameter-free weight derived from the entropy of the DiT output's spatial energy distribution: high entropy damps the gradient, while low entropy preserves it. Applied to LoRA fine-tuning of Stable Audio 3 Medium on MusicCaps, it unexpectedly yields stronger thematic development, clearer acoustic differentiation, and higher textural diversity than unweighted training, the opposite of mode collapse. This works because in supervised diffusion the gradient direction is locked to ground truth, so confidence only scales the step size, and because temporal entropy downweights flat samples while preserving high-contrast ones. The result is an online, self-referential data curriculum that emerges purely from the forward pass, with analyzed noise-level dynamics and testable predictions.