Quand les bons sons deviennent adversariaux : Contournement des modèles audio-linguistiques avec des entrées bénignes
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs
August 5, 2025
papers.authors: Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin
cs.AI
papers.abstract
Alors que les grands modèles de langage s'intègrent de plus en plus dans la vie quotidienne, l'audio est devenu une interface clé pour l'interaction humain-IA. Cependant, cette commodité introduit également de nouvelles vulnérabilités, faisant de l'audio une surface d'attaque potentielle pour les adversaires. Notre recherche présente WhisperInject, un cadre d'attaque audio adversarial en deux étapes capable de manipuler les modèles de langage audio les plus avancés pour générer du contenu nuisible. Notre méthode utilise des perturbations imperceptibles dans les entrées audio qui restent bénignes pour les auditeurs humains. La première étape utilise une nouvelle méthode d'optimisation basée sur les récompenses, l'apprentissage par renforcement avec descente de gradient projetée (RL-PGD), pour guider le modèle cible à contourner ses propres protocoles de sécurité et générer des réponses natives nuisibles. Cette réponse native nuisible sert ensuite de cible pour la deuxième étape, l'injection de charge utile, où nous utilisons la descente de gradient projetée (PGD) pour optimiser des perturbations subtiles intégrées dans des supports audio bénins, tels que des requêtes météorologiques ou des messages de salutation. Validé sous le cadre d'évaluation de sécurité rigoureux StrongREJECT, LlamaGuard, ainsi que l'évaluation humaine, nos expériences démontrent un taux de réussite dépassant 86% sur Qwen2.5-Omni-3B, Qwen2.5-Omni-7B et Phi-4-Multimodal. Notre travail met en lumière une nouvelle classe de menaces audio natives pratiques, dépassant les exploits théoriques pour révéler une méthode réalisable et discrète de manipulation du comportement de l'IA.
English
As large language models become increasingly integrated into daily life,
audio has emerged as a key interface for human-AI interaction. However, this
convenience also introduces new vulnerabilities, making audio a potential
attack surface for adversaries. Our research introduces WhisperInject, a
two-stage adversarial audio attack framework that can manipulate
state-of-the-art audio language models to generate harmful content. Our method
uses imperceptible perturbations in audio inputs that remain benign to human
listeners. The first stage uses a novel reward-based optimization method,
Reinforcement Learning with Projected Gradient Descent (RL-PGD), to guide the
target model to circumvent its own safety protocols and generate harmful native
responses. This native harmful response then serves as the target for Stage 2,
Payload Injection, where we use Projected Gradient Descent (PGD) to optimize
subtle perturbations that are embedded into benign audio carriers, such as
weather queries or greeting messages. Validated under the rigorous
StrongREJECT, LlamaGuard, as well as Human Evaluation safety evaluation
framework, our experiments demonstrate a success rate exceeding 86% across
Qwen2.5-Omni-3B, Qwen2.5-Omni-7B, and Phi-4-Multimodal. Our work demonstrates a
new class of practical, audio-native threats, moving beyond theoretical
exploits to reveal a feasible and covert method for manipulating AI behavior.