ChatPaper.aiChatPaper

TADA! Настройка аудиодиффузионных моделей методом управления активациями

TADA! Tuning Audio Diffusion Models through Activation Steering

February 12, 2026
Авторы: Łukasz Staniszewski, Katarzyna Zaleska, Mateusz Modrzejewski, Kamil Deja
cs.AI

Аннотация

Модели аудиодиффузии способны синтезировать музыку высокого качества из текстовых описаний, однако внутренние механизмы репрезентации в них высокоуровневых концепций остаются малоизученными. В данной работе мы используем метод патчинга активаций, чтобы показать, что различные семантические музыкальные концепции — такие как наличие определённых инструментов, вокала или жанровых характеристик — контролируются небольшим общим подмножеством слоёв внимания в передовых архитектурах аудиодиффузии. Далее мы демонстрируем, что применение контрастного добавления активаций и разреженных автоэнкодеров в этих слоях позволяет достичь более точного управления генерируемым аудио, что указывает на прямую пользу феномена специализации. Направленно модифицируя активации выявленных слоёв, мы можем с высокой точностью изменять конкретные музыкальные элементы, такие как модуляция темпа или смена настроения композиции.
English
Audio diffusion models can synthesize high-fidelity music from text, yet their internal mechanisms for representing high-level concepts remain poorly understood. In this work, we use activation patching to demonstrate that distinct semantic musical concepts, such as the presence of specific instruments, vocals, or genre characteristics, are controlled by a small, shared subset of attention layers in state-of-the-art audio diffusion architectures. Next, we demonstrate that applying Contrastive Activation Addition and Sparse Autoencoders in these layers enables more precise control over the generated audio, indicating a direct benefit of the specialization phenomenon. By steering activations of the identified layers, we can alter specific musical elements with high precision, such as modulating tempo or changing a track's mood.
PDF22February 17, 2026