L'ajustement fin bénin compromet l'alignement de sécurité dans les modèles de langage audio

Résumé

Les travaux antérieurs montrent que le fine-tuning de modèles alignés sur des données bénignes dégrade la sécurité dans les modalités texte et image, et que la proximité avec du contenu nuisible dans l'espace de représentation prédit quels échantillons causent le plus de dommages. Cependant, les analyses existantes opèrent dans un espace d'embedding unique et indifférencié, laissant ouverte la question de savoir si des propriétés distinctes des entrées déterminent différemment la vulnérabilité. L'audio introduit un problème structurellement plus riche : un échantillon bénin peut voisiner un contenu nuisible non seulement par ce qui est dit, mais aussi par la façon dont cela sonne, même lorsque ses mots sont entièrement inoffensifs. Nous présentons la première étude systématique sur la sécurité du fine-tuning bénin dans les modèles de langage audio (Audio LLMs), en évaluant trois modèles de pointe avec un cadre de filtrage par proximité qui sélectionne l'audio bénin par la distance dans l'espace d'embedding au contenu nuisible. En décomposant la proximité selon des axes sémantiques, acoustiques et mixtes à l'aide d'encodeurs de référence externes parallèlement à l'encodeur interne de chaque modèle, nous montrons que le fine-tuning bénin élève le taux de réussite des contournements (Jailbreak Success Rate, JSR) de chiffres à un seul chiffre jusqu'à 87,12 %. Il est crucial de noter que l'axe de vulnérabilité dominant et le risque relatif du fine-tuning audio par rapport au texte sont tous deux conditionnés par l'architecture – déterminés par la façon dont l'encodeur et le projecteur de chaque modèle transforment l'audio en entrée pour le LLM. Nous proposons deux défenses : le filtrage des données d'entraînement pour maximiser la distance par rapport aux embeddings nuisibles, et l'utilisation d'un prompt système textuel lors de l'inférence, toutes deux réduisant le JSR à près de zéro sans modification architecturale. Notre analyse mécanistique sur deux architectures révèle que le fine-tuning supprime sélectivement le circuit de refus des couches tardives tandis que l'encodeur gelé préserve les représentations, et que même le schéma de suppression est conditionné par l'architecture, reflétant les asymétries comportementales entre les modalités. La dégradation de la sécurité due au fine-tuning bénin constitue un risque qualitativement distinct dans les Audio LLMs.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

L'ajustement fin bénin compromet l'alignement de sécurité dans les modèles de langage audio

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Résumé

Support