Étude systématique des attaques typographiques cross-modales sur le raisonnement audio-visuel
A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning
April 5, 2026
Auteurs: Tianle Chen, Deepti Ghadiyaram
cs.AI
Résumé
Alors que les modèles de langage de grande taille multimodaux audio-visuels (MLLMs) sont de plus en plus déployés dans des applications critiques pour la sécurité, comprendre leurs vulnérabilités est crucial. À cette fin, nous introduisons la Typographie Multimodale, une étude systématique examinant comment les attaques typographiques à travers plusieurs modalités influencent négativement les MLLMs. Alors que les travaux antérieurs se concentrent étroitement sur les attaques unimodales, nous exposons la fragilité cross-modale des MLLMs. Nous analysons les interactions entre les perturbations audio, visuelles et textuelles et révélons qu'une attaque multimodale coordonnée crée une menace significativement plus puissante que les attaques unimodales (taux de réussite des attaques = 83,43 % contre 34,93 %). Nos résultats, obtenus sur plusieurs MLLMs de pointe, diverses tâches, et des benchmarks de raisonnement de bon sens et de modération de contenu, établissent la typographie multimodale comme une stratégie d'attaque critique et sous-explorée dans le raisonnement multimodal. Le code et les données seront publiquement disponibles.
English
As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal Typography, a systematic study examining how typographic attacks across multiple modalities adversely influence MLLMs. While prior work focuses narrowly on unimodal attacks, we expose the cross-modal fragility of MLLMs. We analyze the interactions between audio, visual, and text perturbations and reveal that coordinated multi-modal attack creates a significantly more potent threat than single-modality attacks (attack success rate = 83.43% vs 34.93%).Our findings across multiple frontier MLLMs, tasks, and common-sense reasoning and content moderation benchmarks establishes multi-modal typography as a critical and underexplored attack strategy in multi-modal reasoning. Code and data will be publicly available.