Доброкачественная донастройка нарушает защитное выравнивание в аудио-моделях языка

Аннотация

Предыдущие исследования показывают, что дообучение выровненных моделей на безвредных данных снижает их безопасность в текстовой и визуальной модальностях, а близость к вредоносному контенту в пространстве репрезентаций позволяет предсказать, какие выборки наносят наибольший ущерб. Однако существующие анализы оперируют в рамках единого, недифференцированного пространства эмбеддингов, оставляя открытым вопрос о том, влияют ли различные свойства входных данных на уязвимость по-разному. Аудио представляет собой структурно более сложную проблему: безвредный образец может соседствовать с вредоносным контентом не только по смыслу произносимого, но и по акустическим характеристикам, даже если слова абсолютно безобидны. Мы представляем первое систематическое исследование безопасности дообучения на безвредных данных для аудио-LLM, оценивая три современные модели с помощью основанной на близости системы фильтрации, которая отбирает безопасные аудиоданные по расстоянию в пространстве эмбеддингов до вредоносного контента. Разложив близость на семантическую, акустическую и смешанную оси с использованием внешних референсных энкодеров наряду с внутренним энкодером каждой модели, мы показываем, что дообучение на безвредных данных повышает показатель успешности взлома (JSR) с однозначных значений до 87,12%. Ключевым является то, что доминирующая ось уязвимости и относительный риск дообучения на аудио по сравнению с текстом обусловлены архитектурой — тем, как энкодер и проектор каждой модели преобразуют аудио во входное пространство LLM. Мы предлагаем две защиты: фильтрацию обучающих данных для максимизации расстояния до вредоносных эмбеддингов и текстовый системный промпт на этапе вывода, что в совокупности снижает JSR почти до нуля без изменения архитектуры. Наш механистический анализ для двух архитектур reveals, что дообучение избирательно подавляет схему отказа в поздних слоях, в то время как замороженный энкодер сохраняет репрезентации, и что даже характер подавления обусловлен архитектурой, отражая поведенческие асимметрии между модальностями. Деградация безопасности при дообучении на безвредных данных представляет собой качественно отличный риск для аудио-LLM.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

Доброкачественная донастройка нарушает защитное выравнивание в аудио-моделях языка

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Аннотация

Support