TADA! Afstemmen van Audio-Diffusiemodellen via Activatiesturing
TADA! Tuning Audio Diffusion Models through Activation Steering
February 12, 2026
Auteurs: Łukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja
cs.AI
Samenvatting
Audiodiffusiemodellen kunnen hoogwaardige muziek synthetiseren vanuit tekst, maar hun interne mechanismen voor het representeren van hoogwaardige concepten blijven slecht begrepen. In dit werk gebruiken we *activation patching* om aan te tonen dat verschillende semantische muziekconcepten, zoals de aanwezigheid van specifieke instrumenten, vocalen of genrekenmerken, worden gecontroleerd door een kleine, gedeelde subset van aandachtslagen in state-of-the-art audiodiffusie-architecturen. Vervolgens laten we zien dat het toepassen van *Contrastive Activation Addition* en *Sparse Autoencoders* in deze lagen een nauwkeurigere controle over de gegenereerde audio mogelijk maakt, wat wijst op een direct voordeel van het specialisatiefenomeen. Door de activaties van de geïdentificeerde lagen te sturen, kunnen we specifieke muzikale elementen met hoge precisie aanpassen, zoals het moduleren van het tempo of het veranderen van de sfeer van een nummer.
English
Audio diffusion models can synthesize high-fidelity music from text, yet their internal mechanisms for representing high-level concepts remain poorly understood. In this work, we use activation patching to demonstrate that distinct semantic musical concepts, such as the presence of specific instruments, vocals, or genre characteristics, are controlled by a small, shared subset of attention layers in state-of-the-art audio diffusion architectures. Next, we demonstrate that applying Contrastive Activation Addition and Sparse Autoencoders in these layers enables more precise control over the generated audio, indicating a direct benefit of the specialization phenomenon. By steering activations of the identified layers, we can alter specific musical elements with high precision, such as modulating tempo or changing a track's mood.