TADA! Ajustando Modelos de Difusão de Áudio por Meio de Direcionamento de Ativações
TADA! Tuning Audio Diffusion Models through Activation Steering
February 12, 2026
Autores: Łukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja
cs.AI
Resumo
Os modelos de difusão de áudio conseguem sintetizar música de alta fidelidade a partir de texto, mas os seus mecanismos internos de representação de conceitos de alto nível permanecem pouco compreendidos. Neste trabalho, utilizamos a técnica de "activation patching" para demonstrar que conceitos musicais semânticos distintos, como a presença de instrumentos específicos, vocais ou características de género, são controlados por um subconjunto pequeno e partilhado de camadas de atenção nas arquiteturas de difusão de áudio de última geração. Em seguida, demonstramos que a aplicação de Adição de Ativação Contrastante e de Auto codificadores Esparsos nessas camadas permite um controlo mais preciso sobre o áudio gerado, indicando um benefício direto do fenómeno de especialização. Ao direcionar as ativações das camadas identificadas, podemos alterar elementos musicais específicos com alta precisão, como modular o andamento ou alterar o ambiente de uma faixa.
English
Audio diffusion models can synthesize high-fidelity music from text, yet their internal mechanisms for representing high-level concepts remain poorly understood. In this work, we use activation patching to demonstrate that distinct semantic musical concepts, such as the presence of specific instruments, vocals, or genre characteristics, are controlled by a small, shared subset of attention layers in state-of-the-art audio diffusion architectures. Next, we demonstrate that applying Contrastive Activation Addition and Sparse Autoencoders in these layers enables more precise control over the generated audio, indicating a direct benefit of the specialization phenomenon. By steering activations of the identified layers, we can alter specific musical elements with high precision, such as modulating tempo or changing a track's mood.