Ajuste Fino Benigno Compromete o Alinhamento de Segurança em Modelos de Linguagem de Áudio

Resumo

Trabalhos anteriores demonstram que o *fine-tuning* de modelos alinhados em dados benignos degrada a segurança nas modalidades de texto e imagem, e que a proximidade a conteúdos nocivos no espaço de representação prevê quais amostras causam o maior dano. No entanto, as análises existentes operam dentro de um único espaço de incorporação indiferenciado — deixando em aberto se propriedades distintas da entrada conduzem a vulnerabilidade de forma diferente. O áudio introduz um problema estruturalmente mais rico: uma amostra benigna pode ser vizinha de conteúdo nocivo não apenas pelo que é dito, mas também pela forma como soa, mesmo quando as suas palavras são totalmente inócuas. Apresentamos o primeiro estudo sistemático sobre a segurança do *fine-tuning* benigno em Audio LLMs, avaliando três modelos de última geração com uma estrutura de filtragem baseada em proximidade que seleciona áudio benigno pela distância no espaço de incorporação em relação a conteúdos nocivos. Ao decompor a proximidade em eixos semânticos, acústicos e mistos, utilizando codificadores de referência externos em conjunto com o codificador interno de cada modelo, mostramos que o *fine-tuning* benigno eleva a Taxa de Sucesso de *Jailbreak* (JSR) de um dígito para até 87,12%. Crucialmente, o eixo de vulnerabilidade dominante e o risco relativo do *fine-tuning* de áudio versus texto são ambos condicionados pela arquitetura — determinados pela forma como o codificador e o projetor de cada modelo transformam o áudio no espaço de entrada do LLM. Propomos duas defesas: filtrar os dados de treino para maximizar a distância das incorporações nocivas, e um *prompt* de sistema textual na inferência, ambas reduzindo a JSR para quase zero sem modificação arquitetural. A nossa análise mecanicista em duas arquiteturas revela que o *fine-tuning* suprime seletivamente o circuito de recusa nas camadas finais, enquanto o codificador congelado preserva as representações, e que mesmo o padrão de supressão é condicionado pela arquitetura, espelhando as assimetrias comportamentais entre modalidades. A degradação de segurança por *fine-tuning* benigno é um risco qualitativamente distinto em Audio LLMs.

English

Prior work shows that fine-tuning aligned models on benign data degrades safety in text and vision modalities, and that proximity to harmful content in representation space predicts which samples cause the most damage. However, existing analyses operate within a single, undifferentiated embedding space -- leaving open whether distinct input properties drive the vulnerability differently. Audio introduces a structurally richer problem: a benign sample can neighbor harmful content not only through what is said but through how it sounds, even when its words are entirely innocuous. We present the first systematic study of benign fine-tuning safety in Audio LLMs, evaluating three state-of-the-art models with a proximity-based filtering framework that selects benign audio by embedding-space distance to harmful content. By decomposing proximity into semantic, acoustic, and mixed axes using external reference encoders alongside each model's own internal encoder, we show that benign fine-tuning elevates Jailbreak Success Rate (JSR) from single digits to as high as 87.12%. Crucially, the dominant vulnerability axis and the relative risk of audio versus text fine-tuning are both architecture-conditioned -- determined by how each model's encoder and projector transform audio into the LLM's input space. We propose two defenses: filtering training data to maximize distance from harmful embeddings, and a textual system prompt at inference, both reducing JSR to near-zero without architectural modification. Our mechanistic analysis on two architectures reveals that fine-tuning selectively suppresses the late-layer refusal circuit while the frozen encoder preserves representations, and that even the suppression pattern is architecture-conditioned, mirroring the behavioral asymmetries across modalities. Safety degradation from benign fine-tuning is a qualitatively distinct risk in Audio LLMs.

Ajuste Fino Benigno Compromete o Alinhamento de Segurança em Modelos de Linguagem de Áudio

Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Resumo

Support