Интерпретируемое и надежное обнаружение изображений, созданных ИИ, с помощью обоснованного рассуждения в мультимодальных языковых моделях (MLLMs)
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs
June 8, 2025
Авторы: Yikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang
cs.AI
Аннотация
Быстрое развитие технологий генерации изображений усиливает спрос на интерпретируемые и надежные методы обнаружения. Хотя существующие подходы часто достигают высокой точности, они обычно работают как "черные ящики", не предоставляя понятных для человека обоснований. Мультимодальные большие языковые модели (MLLMs), изначально не предназначенные для обнаружения подделок, демонстрируют мощные аналитические и логические способности. При правильной настройке они могут эффективно идентифицировать изображения, созданные искусственным интеллектом, и предоставлять содержательные объяснения. Однако существующие MLLMs по-прежнему сталкиваются с проблемой "галлюцинаций" и часто не могут согласовать свои визуальные интерпретации с фактическим содержанием изображения и человеческой логикой. Чтобы устранить этот разрыв, мы создаем набор данных сгенерированных ИИ изображений, аннотированных ограничивающими рамками и описательными подписями, которые выделяют артефакты синтеза, закладывая основу для визуально-текстового обоснования, согласованного с человеческим восприятием. Затем мы настраиваем MLLMs с помощью многоэтапной стратегии оптимизации, которая постепенно балансирует задачи точного обнаружения, визуальной локализации и связного текстового объяснения. Полученная модель демонстрирует превосходную производительность как в обнаружении изображений, созданных ИИ, так и в локализации визуальных дефектов, значительно превосходя базовые методы.
English
The rapid advancement of image generation technologies intensifies the demand
for interpretable and robust detection methods. Although existing approaches
often attain high accuracy, they typically operate as black boxes without
providing human-understandable justifications. Multi-modal Large Language
Models (MLLMs), while not originally intended for forgery detection, exhibit
strong analytical and reasoning capabilities. When properly fine-tuned, they
can effectively identify AI-generated images and offer meaningful explanations.
However, existing MLLMs still struggle with hallucination and often fail to
align their visual interpretations with actual image content and human
reasoning. To bridge this gap, we construct a dataset of AI-generated images
annotated with bounding boxes and descriptive captions that highlight synthesis
artifacts, establishing a foundation for human-aligned visual-textual grounded
reasoning. We then finetune MLLMs through a multi-stage optimization strategy
that progressively balances the objectives of accurate detection, visual
localization, and coherent textual explanation. The resulting model achieves
superior performance in both detecting AI-generated images and localizing
visual flaws, significantly outperforming baseline methods.