ChatPaper.aiChatPaper

Interpretierbare und zuverlässige Erkennung von KI-generierten Bildern durch fundiertes Schließen in MLLMs

Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs

June 8, 2025
Autoren: Yikun Ji, Hong Yan, Jun Lan, Huijia Zhu, Weiqiang Wang, Qi Fan, Liqing Zhang, Jianfu Zhang
cs.AI

Zusammenfassung

Die rasante Weiterentwicklung von Bildgenerierungstechnologien verstärkt die Nachfrage nach interpretierbaren und robusten Erkennungsmethoden. Obwohl bestehende Ansätze oft eine hohe Genauigkeit erreichen, arbeiten sie typischerweise als Blackbox-Modelle, ohne für Menschen verständliche Begründungen zu liefern. Multimodale Large Language Models (MLLMs), die ursprünglich nicht für die Erkennung von Fälschungen konzipiert wurden, zeigen starke analytische und schlussfolgernde Fähigkeiten. Bei entsprechender Feinabstimmung können sie effektiv KI-generierte Bilder identifizieren und aussagekräftige Erklärungen liefern. Allerdings kämpfen bestehende MLLMs noch mit Halluzinationen und schaffen es oft nicht, ihre visuellen Interpretationen mit dem tatsächlichen Bildinhalt und menschlicher Logik in Einklang zu bringen. Um diese Lücke zu schließen, erstellen wir einen Datensatz von KI-generierten Bildern, die mit Begrenzungsrahmen und beschreibenden Bildunterschriften versehen sind, die Syntheseartefakte hervorheben. Dies bildet die Grundlage für eine an menschliche Logik angepasste visuell-textuelle Begründung. Anschließend feintunen wir MLLMs durch eine mehrstufige Optimierungsstrategie, die die Ziele einer genauen Erkennung, visuellen Lokalisierung und kohärenten textuellen Erklärung schrittweise ausbalanciert. Das resultierende Modell erzielt eine überlegene Leistung sowohl bei der Erkennung von KI-generierten Bildern als auch bei der Lokalisierung visueller Fehler und übertrifft dabei Baseline-Methoden deutlich.
English
The rapid advancement of image generation technologies intensifies the demand for interpretable and robust detection methods. Although existing approaches often attain high accuracy, they typically operate as black boxes without providing human-understandable justifications. Multi-modal Large Language Models (MLLMs), while not originally intended for forgery detection, exhibit strong analytical and reasoning capabilities. When properly fine-tuned, they can effectively identify AI-generated images and offer meaningful explanations. However, existing MLLMs still struggle with hallucination and often fail to align their visual interpretations with actual image content and human reasoning. To bridge this gap, we construct a dataset of AI-generated images annotated with bounding boxes and descriptive captions that highlight synthesis artifacts, establishing a foundation for human-aligned visual-textual grounded reasoning. We then finetune MLLMs through a multi-stage optimization strategy that progressively balances the objectives of accurate detection, visual localization, and coherent textual explanation. The resulting model achieves superior performance in both detecting AI-generated images and localizing visual flaws, significantly outperforming baseline methods.
PDF72June 11, 2025