LOKI: Ein umfassender Benchmark zur Erkennung synthetischer Daten unter Verwendung großer multimodaler Modelle
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models
October 13, 2024
Autoren: Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
cs.AI
Zusammenfassung
Mit der raschen Entwicklung von KI-generierten Inhalten könnte das zukünftige Internet von synthetischen Daten überschwemmt werden, was die Unterscheidung von authentischen und glaubwürdigen multimodalen Daten zunehmend herausfordernd macht. Die Erkennung synthetischer Daten hat daher weitreichende Aufmerksamkeit erregt, und die Leistung großer multimodaler Modelle (LMMs) bei dieser Aufgabe hat beträchtliches Interesse geweckt. LMMs können natürlichsprachliche Erklärungen für ihre Authentizitätsbewertungen liefern, was die Erklärbarkeit der Erkennung synthetischer Inhalte verbessert. Gleichzeitig testet die Aufgabe, zwischen realen und synthetischen Daten zu unterscheiden, effektiv die Wahrnehmungs-, Wissens- und Argumentationsfähigkeiten von LMMs. Als Antwort darauf stellen wir LOKI vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit von LMMs zur Erkennung synthetischer Daten über mehrere Modalitäten hinweg zu bewerten. LOKI umfasst Video-, Bild-, 3D-, Text- und Audio-Modalitäten und besteht aus 18.000 sorgfältig ausgewählten Fragen in 26 Unterkategorien mit klaren Schwierigkeitsgraden. Der Benchmark beinhaltet grobgranulare Bewertungs- und Multiple-Choice-Fragen sowie feinkörnige Anomalieauswahl- und Erklärungsaufgaben, die eine umfassende Analyse von LMMs ermöglichen. Wir haben 22 Open-Source-LMMs und 6 geschlossene Modelle auf LOKI evaluiert, wobei ihre Potenziale als Erkenner synthetischer Daten hervorgehoben und gleichzeitig einige Einschränkungen bei der Entwicklung von LMM-Fähigkeiten aufgezeigt wurden. Weitere Informationen zu LOKI finden Sie unter https://opendatalab.github.io/LOKI/
English
With the rapid development of AI-generated content, the future internet may
be inundated with synthetic data, making the discrimination of authentic and
credible multimodal data increasingly challenging. Synthetic data detection has
thus garnered widespread attention, and the performance of large multimodal
models (LMMs) in this task has attracted significant interest. LMMs can provide
natural language explanations for their authenticity judgments, enhancing the
explainability of synthetic content detection. Simultaneously, the task of
distinguishing between real and synthetic data effectively tests the
perception, knowledge, and reasoning capabilities of LMMs. In response, we
introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to
detect synthetic data across multiple modalities. LOKI encompasses video,
image, 3D, text, and audio modalities, comprising 18K carefully curated
questions across 26 subcategories with clear difficulty levels. The benchmark
includes coarse-grained judgment and multiple-choice questions, as well as
fine-grained anomaly selection and explanation tasks, allowing for a
comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6
closed-source models on LOKI, highlighting their potential as synthetic data
detectors and also revealing some limitations in the development of LMM
capabilities. More information about LOKI can be found at
https://opendatalab.github.io/LOKI/Summary
AI-Generated Summary