Un Estudio Sistemático de Ataques Tipográficos Transmodales en el Razonamiento Audiovisual
A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning
April 5, 2026
Autores: Tianle Chen, Deepti Ghadiyaram
cs.AI
Resumen
A medida que los modelos lingüísticos multimodales (MLLM) audiovisuales se despliegan cada vez más en aplicaciones críticas para la seguridad, comprender sus vulnerabilidades es crucial. Con este fin, presentamos Tipografía Multimodal, un estudio sistemático que examina cómo los ataques tipográficos en múltiples modalidades afectan negativamente a los MLLM. Mientras que trabajos anteriores se centran de forma limitada en ataques unimodales, nosotros exponemos la fragilidad cross-modal de los MLLM. Analizamos las interacciones entre perturbaciones de audio, visuales y de texto, y revelamos que un ataque multimodal coordinado representa una amenaza significativamente más potente que los ataques de modalidad única (tasa de éxito del ataque = 83.43% vs 34.93%). Nuestros hallazgos, obtenidos en múltiples MLLM de vanguardia, tareas, y benchmarks de razonamiento de sentido común y moderación de contenido, establecen a la tipografía multimodal como una estrategia de ataque crítica y poco explorada en el razonamiento multimodal. El código y los datos estarán disponibles públicamente.
English
As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal Typography, a systematic study examining how typographic attacks across multiple modalities adversely influence MLLMs. While prior work focuses narrowly on unimodal attacks, we expose the cross-modal fragility of MLLMs. We analyze the interactions between audio, visual, and text perturbations and reveal that coordinated multi-modal attack creates a significantly more potent threat than single-modality attacks (attack success rate = 83.43% vs 34.93%).Our findings across multiple frontier MLLMs, tasks, and common-sense reasoning and content moderation benchmarks establishes multi-modal typography as a critical and underexplored attack strategy in multi-modal reasoning. Code and data will be publicly available.