Goedaardige Fine-Tuning Verbreekt Veiligheidsuitlijning in Audiotalige Grote Taalmodellen

Samenvatting

Eerder onderzoek toont aan dat het finetunen van afgestemde modellen op goedaardige gegevens de veiligheid aantast in tekst- en beeldmodaliteiten, en dat de nabijheid tot schadelijke inhoud in de representatieruimte voorspelt welke voorbeelden de meeste schade veroorzaken. Bestaande analyses opereren echter binnen een enkele, ongedifferentieerde inbeddingsruimte – waardoor onduidelijk blijft of verschillende invoereigenschappen de kwetsbaarheid anders sturen. Audio introduceert een structureel rijker probleem: een goedaardig voorbeeld kan schadelijke inhoud naburigen, niet alleen door wat er gezegd wordt, maar ook door hoe het klinkt, zelfs wanneer de woorden volledig onschuldig zijn. Wij presenteren de eerste systematische studie naar veiligheid bij goedaardig finetunen in Audio-LLM's, waarbij we drie state-of-the-art modellen evalueren met een op nabijheid gebaseerd filterraamwerk dat goedaardige audio selecteert op basis van de afstand in de inbeddingsruimte tot schadelijke inhoud. Door nabijheid te ontleden in semantische, akoestische en gemengde assen met behulp van externe referentie-encoders naast de interne encoder van elk model, tonen we aan dat goedaardig finetunen het Jailbreak Success Rate (JSR) verhoogt van enkele procenten tot wel 87,12%. Cruciaal is dat de dominante kwetsbaarheidsas en het relatieve risico van audio- versus tekstfinetuning beide architectuur-geconditioneerd zijn – bepaald door hoe de encoder en projector van elk model audio transformeren naar de invoerruimte van de LLM. Wij stellen twee verdedigingen voor: het filteren van trainingsgegevens om de afstand tot schadelijke inbeddingen te maximaliseren, en een tekstueel systeemprompt tijdens inferentie, die beide de JSR reduceren tot bijna nul zonder architecturale aanpassing. Onze mechanistische analyse op twee architecturen onthult dat finetunen selectief het weigeringscircuit in de late lagen onderdrukt terwijl de bevroren encoder representaties behoudt, en dat zelfs het onderdrukkingspatroon architectuur-geconditioneerd is, wat de gedragsasymmetrieën tussen modaliteiten weerspiegelt. Veiligheidsdegradatie door goedaardig finetunen is een kwalitatief ander risico in Audio-LLM's.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

Goedaardige Fine-Tuning Verbreekt Veiligheidsuitlijning in Audiotalige Grote Taalmodellen

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Samenvatting

Support