TADA ! Ajustement des modèles de diffusion audio par pilotage des activations
TADA! Tuning Audio Diffusion Models through Activation Steering
February 12, 2026
papers.authors: Łukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja
cs.AI
papers.abstract
Les modèles de diffusion audio peuvent synthétiser de la musique haute fidélité à partir de texte, mais leurs mécanismes internes de représentation des concepts de haut niveau restent mal compris. Dans ce travail, nous utilisons le "activation patching" pour démontrer que des concepts musicaux sémantiques distincts, tels que la présence d'instruments spécifiques, de voix ou de caractéristiques de genre, sont contrôlés par un petit sous-ensemble partagé de couches d'attention dans les architectures de diffusion audio de pointe. Ensuite, nous montrons que l'application de l'"Addition d'Activation Contrastive" et des "Autoencodeurs Faiblement Connectés" dans ces couches permet un contrôle plus précis de l'audio généré, indiquant un bénéfice direct du phénomène de spécialisation. En orientant les activations des couches identifiées, nous pouvons modifier des éléments musicaux spécifiques avec une grande précision, comme moduler le tempo ou changer l'ambiance d'un morceau.
English
Audio diffusion models can synthesize high-fidelity music from text, yet their internal mechanisms for representing high-level concepts remain poorly understood. In this work, we use activation patching to demonstrate that distinct semantic musical concepts, such as the presence of specific instruments, vocals, or genre characteristics, are controlled by a small, shared subset of attention layers in state-of-the-art audio diffusion architectures. Next, we demonstrate that applying Contrastive Activation Addition and Sparse Autoencoders in these layers enables more precise control over the generated audio, indicating a direct benefit of the specialization phenomenon. By steering activations of the identified layers, we can alter specific musical elements with high precision, such as modulating tempo or changing a track's mood.