Interpretierbare und zuverlässige Erkennung von KI-generierten Bildern durch fundiertes Schließen in MLLMs
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs
June 8, 2025
Autoren: Yikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang
cs.AI
Zusammenfassung
Die rasante Weiterentwicklung von Bildgenerierungstechnologien verstärkt die Nachfrage nach interpretierbaren und robusten Erkennungsmethoden. Obwohl bestehende Ansätze oft eine hohe Genauigkeit erreichen, arbeiten sie typischerweise als Blackbox-Modelle, ohne für Menschen verständliche Begründungen zu liefern. Multimodale Large Language Models (MLLMs), die ursprünglich nicht für die Erkennung von Fälschungen konzipiert wurden, zeigen starke analytische und schlussfolgernde Fähigkeiten. Bei entsprechender Feinabstimmung können sie effektiv KI-generierte Bilder identifizieren und aussagekräftige Erklärungen liefern. Allerdings kämpfen bestehende MLLMs noch mit Halluzinationen und schaffen es oft nicht, ihre visuellen Interpretationen mit dem tatsächlichen Bildinhalt und menschlicher Logik in Einklang zu bringen. Um diese Lücke zu schließen, erstellen wir einen Datensatz von KI-generierten Bildern, die mit Begrenzungsrahmen und beschreibenden Bildunterschriften versehen sind, die Syntheseartefakte hervorheben. Dies bildet die Grundlage für eine an menschliche Logik angepasste visuell-textuelle Begründung. Anschließend feintunen wir MLLMs durch eine mehrstufige Optimierungsstrategie, die die Ziele einer genauen Erkennung, visuellen Lokalisierung und kohärenten textuellen Erklärung schrittweise ausbalanciert. Das resultierende Modell erzielt eine überlegene Leistung sowohl bei der Erkennung von KI-generierten Bildern als auch bei der Lokalisierung visueller Fehler und übertrifft dabei Baseline-Methoden deutlich.
English
The rapid advancement of image generation technologies intensifies the demand
for interpretable and robust detection methods. Although existing approaches
often attain high accuracy, they typically operate as black boxes without
providing human-understandable justifications. Multi-modal Large Language
Models (MLLMs), while not originally intended for forgery detection, exhibit
strong analytical and reasoning capabilities. When properly fine-tuned, they
can effectively identify AI-generated images and offer meaningful explanations.
However, existing MLLMs still struggle with hallucination and often fail to
align their visual interpretations with actual image content and human
reasoning. To bridge this gap, we construct a dataset of AI-generated images
annotated with bounding boxes and descriptive captions that highlight synthesis
artifacts, establishing a foundation for human-aligned visual-textual grounded
reasoning. We then finetune MLLMs through a multi-stage optimization strategy
that progressively balances the objectives of accurate detection, visual
localization, and coherent textual explanation. The resulting model achieves
superior performance in both detecting AI-generated images and localizing
visual flaws, significantly outperforming baseline methods.