LOKI: Ein umfassender Benchmark zur Erkennung synthetischer Daten unter Verwendung großer multimodaler Modelle

papers.abstract

Mit der raschen Entwicklung von KI-generierten Inhalten könnte das zukünftige Internet von synthetischen Daten überschwemmt werden, was die Unterscheidung von authentischen und glaubwürdigen multimodalen Daten zunehmend herausfordernd macht. Die Erkennung synthetischer Daten hat daher weitreichende Aufmerksamkeit erregt, und die Leistung großer multimodaler Modelle (LMMs) bei dieser Aufgabe hat beträchtliches Interesse geweckt. LMMs können natürlichsprachliche Erklärungen für ihre Authentizitätsbewertungen liefern, was die Erklärbarkeit der Erkennung synthetischer Inhalte verbessert. Gleichzeitig testet die Aufgabe, zwischen realen und synthetischen Daten zu unterscheiden, effektiv die Wahrnehmungs-, Wissens- und Argumentationsfähigkeiten von LMMs. Als Antwort darauf stellen wir LOKI vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit von LMMs zur Erkennung synthetischer Daten über mehrere Modalitäten hinweg zu bewerten. LOKI umfasst Video-, Bild-, 3D-, Text- und Audio-Modalitäten und besteht aus 18.000 sorgfältig ausgewählten Fragen in 26 Unterkategorien mit klaren Schwierigkeitsgraden. Der Benchmark beinhaltet grobgranulare Bewertungs- und Multiple-Choice-Fragen sowie feinkörnige Anomalieauswahl- und Erklärungsaufgaben, die eine umfassende Analyse von LMMs ermöglichen. Wir haben 22 Open-Source-LMMs und 6 geschlossene Modelle auf LOKI evaluiert, wobei ihre Potenziale als Erkenner synthetischer Daten hervorgehoben und gleichzeitig einige Einschränkungen bei der Entwicklung von LMM-Fähigkeiten aufgezeigt wurden. Weitere Informationen zu LOKI finden Sie unter https://opendatalab.github.io/LOKI/

English

With the rapid development of AI-generated content, the future internet may be inundated with synthetic data, making the discrimination of authentic and credible multimodal data increasingly challenging. Synthetic data detection has thus garnered widespread attention, and the performance of large multimodal models (LMMs) in this task has attracted significant interest. LMMs can provide natural language explanations for their authenticity judgments, enhancing the explainability of synthetic content detection. Simultaneously, the task of distinguishing between real and synthetic data effectively tests the perception, knowledge, and reasoning capabilities of LMMs. In response, we introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to detect synthetic data across multiple modalities. LOKI encompasses video, image, 3D, text, and audio modalities, comprising 18K carefully curated questions across 26 subcategories with clear difficulty levels. The benchmark includes coarse-grained judgment and multiple-choice questions, as well as fine-grained anomaly selection and explanation tasks, allowing for a comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6 closed-source models on LOKI, highlighting their potential as synthetic data detectors and also revealing some limitations in the development of LMM capabilities. More information about LOKI can be found at https://opendatalab.github.io/LOKI/

LOKI: Ein umfassender Benchmark zur Erkennung synthetischer Daten unter Verwendung großer multimodaler Modelle

LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

papers.abstract

Support