Систематическое исследование кросс-модальных типографских атак на аудиовизуальное рассуждение
A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning
April 5, 2026
Авторы: Tianle Chen, Deepti Ghadiyaram
cs.AI
Аннотация
Поскольку аудиовизуальные мультимодальные большие языковые модели (МБЯМ) все чаще применяются в критически важных для безопасности системах, понимание их уязвимостей становится крайне важным. В этой связи мы представляем «Мультимодальную типографику» — систематическое исследование, изучающее, как типографские атаки в различных модальностях негативно влияют на МБЯМ. В то время как предыдущие работы фокусировались исключительно на унимодальных атаках, мы выявляем кросс-модальную хрупкость МБЯМ. Мы анализируем взаимодействие между аудиальными, визуальными и текстовыми возмущениями и показываем, что скоординированная мультимодальная атака создает значительно более мощную угрозу по сравнению с атаками в одной модальности (успешность атаки = 83,43% против 34,93%). Наши результаты, полученные на множестве передовых МБЯМ, задач и тестов на проверку здравого смысла и модерацию контента, устанавливают мультимодальную типографику как критически важную и недостаточно изученную стратегию атаки в мультимодальных рассуждениях. Код и данные будут общедоступны.
English
As audio-visual multi-modal large language models (MLLMs) are increasingly deployed in safety-critical applications, understanding their vulnerabilities is crucial. To this end, we introduce Multi-Modal Typography, a systematic study examining how typographic attacks across multiple modalities adversely influence MLLMs. While prior work focuses narrowly on unimodal attacks, we expose the cross-modal fragility of MLLMs. We analyze the interactions between audio, visual, and text perturbations and reveal that coordinated multi-modal attack creates a significantly more potent threat than single-modality attacks (attack success rate = 83.43% vs 34.93%).Our findings across multiple frontier MLLMs, tasks, and common-sense reasoning and content moderation benchmarks establishes multi-modal typography as a critical and underexplored attack strategy in multi-modal reasoning. Code and data will be publicly available.