La Sintonización Fina Benigna Compromete la Alineación de Seguridad en los Modelos de Lenguaje de Audio

Resumen

Trabajos previos demuestran que el ajuste fino de modelos alineados con datos benignos degrada la seguridad en modalidades de texto y visión, y que la proximidad a contenido dañino en el espacio de representación predice qué muestras causan el mayor perjuicio. Sin embargo, los análisis existentes operan dentro de un único espacio de *embeddings* indiferenciado, dejando abierta la cuestión de si distintas propiedades de la entrada impulsan la vulnerabilidad de manera diferente. El audio introduce un problema estructuralmente más rico: una muestra benigna puede ser vecina de contenido dañino no solo por lo que se dice, sino por cómo suena, incluso cuando sus palabras son completamente inocuas. Presentamos el primer estudio sistemático de seguridad en el ajuste fino benigno para LLMs de Audio, evaluando tres modelos de última generación con un marco de filtrado basado en proximidad que selecciona audio benigno por la distancia en el espacio de *embeddings* al contenido dañino. Al descomponer la proximidad en ejes semánticos, acústicos y mixtos utilizando codificadores de referencia externos junto al codificador interno de cada modelo, mostramos que el ajuste fino benigno eleva la Tasa de Éxito de Jailbreak (JSR) de un solo dígito hasta un 87,12%. Crucialmente, el eje de vulnerabilidad dominante y el riesgo relativo del ajuste fino de audio frente al de texto están condicionados por la arquitectura, determinados por cómo el codificador y el proyector de cada modelo transforman el audio en el espacio de entrada del LLM. Proponemos dos defensas: filtrar los datos de entrenamiento para maximizar la distancia de los *embeddings* dañinos, y un *prompt* de sistema textual en la inferencia; ambas reducen la JSR a casi cero sin modificación arquitectónica. Nuestro análisis mecanicista en dos arquitecturas revela que el ajuste fino suprime selectivamente el circuito de rechazo de capas tardías mientras el codificador congelado preserva las representaciones, y que incluso el patrón de supresión está condicionado por la arquitectura, reflejando las asimetrías conductuales entre modalidades. La degradación de la seguridad por ajuste fino benigno es un riesgo cualitativamente distinto en los LLMs de Audio.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

La Sintonización Fina Benigna Compromete la Alineación de Seguridad en los Modelos de Lenguaje de Audio

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Resumen

Support