Harmloses Feinabstimmen gefährdet die Sicherheitsausrichtung von Audio-LLMs.

Zusammenfassung

Bisherige Arbeiten zeigen, dass das Fine-Tuning alignierter Modelle mit benignen Daten die Sicherheit in Text- und Visuell-Modalitäten beeinträchtigt, und dass die Nähe zu schädlichen Inhalten im Repräsentationsraum vorhersagt, welche Beispiele den größten Schaden verursachen. Bestehende Analysen operieren jedoch in einem einzigen, undifferenzierten Einbettungsraum – es bleibt offen, ob unterschiedliche Eingabeeigenschaften die Verwundbarkeit unterschiedlich antreiben. Audio stellt ein strukturell komplexeres Problem dar: Ein benignes Beispiel kann schädliche Inhalte nicht nur durch den Inhalt des Gesagten, sondern auch durch die Klangeigenschaft benachbarten, selbst wenn die Worte völlig harmlos sind. Wir präsentieren die erste systematische Untersuchung der Sicherheit von benignem Fine-Tuning bei Audio-LLMs und evaluieren drei state-of-the-art Modelle mit einem näherungsbasierten Filterframework, das benigne Audiodaten basierend auf der Einbettungsraum-Distanz zu schädlichen Inhalten auswählt. Durch die Zerlegung der Nähe in semantische, akustische und gemischte Achsen unter Verwendung externer Referenz-Encoder neben dem jeweiligen internen Encoder des Modells zeigen wir, dass benignes Fine-Tuning die Jailbreak Success Rate (JSR) von einstelligen Prozentwerten auf bis zu 87,12% anhebt. Entscheidend ist, dass sowohl die dominante Verwundbarkeitsachse als auch das relative Risiko von Audio- im Vergleich zu Text-Fine-Tuning architekturbedingt sind – bestimmt durch die Art und Weise, wie der Encoder und Projektor jedes Modells Audio in den Eingaberaum des LLM transformieren. Wir schlagen zwei Verteidigungsstrategien vor: das Filtern von Trainingsdaten zur Maximierung der Distanz zu schädlichen Einbettungen und einen textuellen System-Prompt zur Inferenzzeit, die beide die JSR ohne Architekturmodifikation auf nahezu Null reduzieren. Unsere mechanistische Analyse an zwei Architekturen zeigt, dass Fine-Tuning den Ablehnungs-Schaltkreis in späten Schichten selektiv unterdrückt, während der eingefrorene Encoder die Repräsentationen bewahrt, und dass selbst das Unterdrückungsmuster architekturbedingt ist und die behavioralen Asymmetrien über Modalitäten hinweg widerspiegelt. Sicherheitsverschlechterung durch benignes Fine-Tuning stellt ein qualitativ eigenständiges Risiko bei Audio-LLMs dar.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

Harmloses Feinabstimmen gefährdet die Sicherheitsausrichtung von Audio-LLMs.

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Zusammenfassung

Support