Um Estudo Sistemático de Ataques Tipográficos Transmodais no Raciocínio Áudio-Visual
A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning
April 5, 2026
Autores: Tianle Chen, Deepti Ghadiyaram
cs.AI
Resumo
À medida que os modelos de linguagem multimodal (MLLMs) audiovisuais são cada vez mais implementados em aplicações críticas para a segurança, compreender as suas vulnerabilidades é crucial. Para tal, introduzimos a Tipografia Multimodal, um estudo sistemático que examina como os ataques tipográficos em múltiplas modalidades influenciam negativamente os MLLMs. Enquanto trabalhos anteriores se concentram de forma restrita em ataques unimodais, nós expomos a fragilidade cross-modal dos MLLMs. Analisamos as interações entre perturbações de áudio, visuais e textuais e revelamos que um ataque multimodal coordenado cria uma ameaça significativamente mais potente do que ataques de modalidade única (taxa de sucesso do ataque = 83,43% vs 34,93%). As nossas descobertas, abrangendo múltiplos MLLMs de fronteira, tarefas e benchmarks de raciocínio de senso comum e moderação de conteúdo, estabelecem a tipografia multimodal como uma estratégia de ataque crítica e subexplorada no raciocínio multimodal. O código e os dados estarão publicamente disponíveis.
English
As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal Typography, a systematic study examining how typographic attacks across multiple modalities adversely influence MLLMs. While prior work focuses narrowly on unimodal attacks, we expose the cross-modal fragility of MLLMs. We analyze the interactions between audio, visual, and text perturbations and reveal that coordinated multi-modal attack creates a significantly more potent threat than single-modality attacks (attack success rate = 83.43% vs 34.93%).Our findings across multiple frontier MLLMs, tasks, and common-sense reasoning and content moderation benchmarks establishes multi-modal typography as a critical and underexplored attack strategy in multi-modal reasoning. Code and data will be publicly available.