ChatPaper.aiChatPaper

¡TACHÁN! Sintonización de Modelos de Difusión de Audio mediante Direccionamiento de Activaciones

TADA! Tuning Audio Diffusion Models through Activation Steering

February 12, 2026
Autores: Łukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja
cs.AI

Resumen

Los modelos de difusión de audio pueden sintetizar música de alta fidelidad a partir de texto, pero sus mecanismos internos para representar conceptos de alto nivel siguen siendo poco comprendidos. En este trabajo, utilizamos la técnica de "activation patching" para demostrar que distintos conceptos musicales semánticos, como la presencia de instrumentos específicos, voces o características de género, son controlados por un subconjunto pequeño y compartido de capas de atención en las arquitecturas de difusión de audio más avanzadas. A continuación, demostramos que la aplicación de Adición de Activación Contrastante y Autoencoders Dispersos en estas capas permite un control más preciso sobre el audio generado, lo que indica un beneficio directo del fenómeno de especialización. Al dirigir las activaciones de las capas identificadas, podemos alterar elementos musicales específicos con alta precisión, como modular el tempo o cambiar el estado de ánimo de una pista.
English
Audio diffusion models can synthesize high-fidelity music from text, yet their internal mechanisms for representing high-level concepts remain poorly understood. In this work, we use activation patching to demonstrate that distinct semantic musical concepts, such as the presence of specific instruments, vocals, or genre characteristics, are controlled by a small, shared subset of attention layers in state-of-the-art audio diffusion architectures. Next, we demonstrate that applying Contrastive Activation Addition and Sparse Autoencoders in these layers enables more precise control over the generated audio, indicating a direct benefit of the specialization phenomenon. By steering activations of the identified layers, we can alter specific musical elements with high precision, such as modulating tempo or changing a track's mood.
PDF22February 17, 2026