Quand les bons sons deviennent adversariaux : Contournement des modèles audio-linguistiques avec des entrées bénignes

papers.abstract

Alors que les grands modèles de langage s'intègrent de plus en plus dans la vie quotidienne, l'audio est devenu une interface clé pour l'interaction humain-IA. Cependant, cette commodité introduit également de nouvelles vulnérabilités, faisant de l'audio une surface d'attaque potentielle pour les adversaires. Notre recherche présente WhisperInject, un cadre d'attaque audio adversarial en deux étapes capable de manipuler les modèles de langage audio les plus avancés pour générer du contenu nuisible. Notre méthode utilise des perturbations imperceptibles dans les entrées audio qui restent bénignes pour les auditeurs humains. La première étape utilise une nouvelle méthode d'optimisation basée sur les récompenses, l'apprentissage par renforcement avec descente de gradient projetée (RL-PGD), pour guider le modèle cible à contourner ses propres protocoles de sécurité et générer des réponses natives nuisibles. Cette réponse native nuisible sert ensuite de cible pour la deuxième étape, l'injection de charge utile, où nous utilisons la descente de gradient projetée (PGD) pour optimiser des perturbations subtiles intégrées dans des supports audio bénins, tels que des requêtes météorologiques ou des messages de salutation. Validé sous le cadre d'évaluation de sécurité rigoureux StrongREJECT, LlamaGuard, ainsi que l'évaluation humaine, nos expériences démontrent un taux de réussite dépassant 86% sur Qwen2.5-Omni-3B, Qwen2.5-Omni-7B et Phi-4-Multimodal. Notre travail met en lumière une nouvelle classe de menaces audio natives pratiques, dépassant les exploits théoriques pour révéler une méthode réalisable et discrète de manipulation du comportement de l'IA.

English

As large language models become increasingly integrated into daily life, audio has emerged as a key interface for human-AI interaction. However, this convenience also introduces new vulnerabilities, making audio a potential attack surface for adversaries. Our research introduces WhisperInject, a two-stage adversarial audio attack framework that can manipulate state-of-the-art audio language models to generate harmful content. Our method uses imperceptible perturbations in audio inputs that remain benign to human listeners. The first stage uses a novel reward-based optimization method, Reinforcement Learning with Projected Gradient Descent (RL-PGD), to guide the target model to circumvent its own safety protocols and generate harmful native responses. This native harmful response then serves as the target for Stage 2, Payload Injection, where we use Projected Gradient Descent (PGD) to optimize subtle perturbations that are embedded into benign audio carriers, such as weather queries or greeting messages. Validated under the rigorous StrongREJECT, LlamaGuard, as well as Human Evaluation safety evaluation framework, our experiments demonstrate a success rate exceeding 86% across Qwen2.5-Omni-3B, Qwen2.5-Omni-7B, and Phi-4-Multimodal. Our work demonstrates a new class of practical, audio-native threats, moving beyond theoretical exploits to reveal a feasible and covert method for manipulating AI behavior.

Quand les bons sons deviennent adversariaux : Contournement des modèles audio-linguistiques avec des entrées bénignes

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

papers.abstract

Support