Uno Studio Sistematico sugli Attacchi Tipografici Cross-Modali nel Ragionamento Audio-Visivo

Abstract

Man mano che i modelli linguistici multimodali (MLLM) audiovisivi vengono implementati in applicazioni critiche per la sicurezza, comprenderne le vulnerabilità diventa cruciale. A tal fine, introduciamo la Tipografia Multimodale, uno studio sistematico che esamina come gli attacchi tipografici su più modalità influenzino negativamente gli MLLM. Mentre i lavori precedenti si concentrano in modo limitato su attacchi unimodali, noi esponiamo la fragilità cross-modale degli MLLM. Analizziamo le interazioni tra perturbazioni audio, visive e testuali e riveliamo che un attacco multimodale coordinato crea una minaccia significativamente più potente rispetto agli attacchi a modalità singola (tasso di successo dell'attacco = 83,43% contro 34,93%). I nostri risultati, ottenuti su molteplici MLLM all'avanguardia, compiti e benchmark di ragionamento basato sul senso comune e moderazione dei contenuti, stabiliscono la tipografia multimodale come una strategia di attacco critica e poco esplorata nel ragionamento multimodale. Il codice e i dati saranno resi pubblicamente disponibili.

English

As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal Typography, a systematic study examining how typographic attacks across multiple modalities adversely influence MLLMs. While prior work focuses narrowly on unimodal attacks, we expose the cross-modal fragility of MLLMs. We analyze the interactions between audio, visual, and text perturbations and reveal that coordinated multi-modal attack creates a significantly more potent threat than single-modality attacks (attack success rate = 83.43% vs 34.93%).Our findings across multiple frontier MLLMs, tasks, and common-sense reasoning and content moderation benchmarks establishes multi-modal typography as a critical and underexplored attack strategy in multi-modal reasoning. Code and data will be publicly available.

Uno Studio Sistematico sugli Attacchi Tipografici Cross-Modali nel Ragionamento Audio-Visivo

A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

Abstract

Support