L'Affinamento Benigno Compromette l'Allineamento di Sicurezza nei Modelli Linguistici Audio

Abstract

I lavori precedenti dimostrano che il fine-tuning di modelli allineati su dati benigni compromette la sicurezza nelle modalità testo e immagine, e che la prossimità a contenuti dannosi nello spazio delle rappresentazioni predice quali campioni causano il maggior danno. Tuttavia, le analisi esistenti operano all'interno di un singolo spazio di embedding indifferenziato, lasciando aperta la questione se proprietà distinte dell'input guidino la vulnerabilità in modo diverso. L'audio introduce un problema strutturalmente più ricco: un campione benigno può essere vicino a contenuti dannosi non solo per ciò che viene detto, ma anche per come suona, anche quando le sue parole sono del tutto innocue. Presentiamo il primo studio sistematico sulla sicurezza del fine-tuning benigno negli Audio LLM, valutando tre modelli all'avanguardia con un framework di filtraggio basato sulla prossimità che seleziona audio benigno in base alla distanza nello spazio di embedding dai contenuti dannosi. Scomponendo la prossimità lungo assi semantici, acustici e misti, utilizzando encoder di riferimento esterni insieme all'encoder interno di ciascun modello, dimostriamo che il fine-tuning benigno eleva il Tasso di Successo del Jailbreak (JSR) da cifre a una sola cifra fino all'87,12%. Fondamentalmente, l'asse di vulnerabilità dominante e il rischio relativo del fine-tuning audio rispetto a quello testuale sono entrambi condizionati dall'architettura, determinati da come l'encoder e il proiettore di ciascun modello trasformano l'audio nello spazio di input dell'LLM. Proponiamo due difese: filtrare i dati di addestramento per massimizzare la distanza dagli embedding dannosi e un prompt di sistema testuale all'inferenza, entrambi in grado di ridurre il JSR a quasi zero senza modifiche architetturali. La nostra analisi meccanicistica su due architetture rivela che il fine-tuning sopprime selettivamente il circuito di rifiuto negli strati finali mentre l'encoder congelato preserva le rappresentazioni, e che persino lo schema di soppressione è condizionato dall'architettura, rispecchiando le asimmetrie comportamentali tra le modalità. Il degrado della sicurezza dovuto al fine-tuning benigno costituisce un rischio qualitativamente distinto negli Audio LLM.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

L'Affinamento Benigno Compromette l'Allineamento di Sicurezza nei Modelli Linguistici Audio

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Abstract

Support