ChatPaper.aiChatPaper

TADA!活性化ステアリングによる音声拡散モデルのチューニング

TADA! Tuning Audio Diffusion Models through Activation Steering

February 12, 2026
著者: Łukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja
cs.AI

要旨

音声拡散モデルはテキストから高忠実度の音楽を合成できるが、高次概念を表現する内部メカニズムは未解明な部分が多い。本研究では、アクティベーション・パッチングを用いて、特定楽器の有無やボーカル、ジャンル特性といった意味的な音楽概念が、最先端の音声拡散アーキテクチャにおいて、ごく少数の共有された注意層によって制御されていることを実証する。さらに、これらの層に Contrastive Activation Addition と Sparse Autoencoder を適用することで、生成音声の制御精度が向上することを示し、特殊化現象の直接的な利点を明らかにする。特定された層の活性化を操作することで、テンポの調整や楽曲のムード変更といった特定の音楽要素を高精度に変更できることを実証する。
English
Audio diffusion models can synthesize high-fidelity music from text, yet their internal mechanisms for representing high-level concepts remain poorly understood. In this work, we use activation patching to demonstrate that distinct semantic musical concepts, such as the presence of specific instruments, vocals, or genre characteristics, are controlled by a small, shared subset of attention layers in state-of-the-art audio diffusion architectures. Next, we demonstrate that applying Contrastive Activation Addition and Sparse Autoencoders in these layers enables more precise control over the generated audio, indicating a direct benefit of the specialization phenomenon. By steering activations of the identified layers, we can alter specific musical elements with high precision, such as modulating tempo or changing a track's mood.
PDF22February 17, 2026