LOKI : un banc d'essai complet pour la détection de données synthétiques utilisant de grands modèles multimodaux
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models
October 13, 2024
Auteurs: Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
cs.AI
Résumé
Avec le développement rapide du contenu généré par l'IA, l'internet du futur pourrait être inondé de données synthétiques, rendant de plus en plus difficile la discrimination des données multimodales authentiques et crédibles. La détection de données synthétiques a ainsi suscité une attention généralisée, et les performances des grands modèles multimodaux (LMMs) dans cette tâche ont attiré un intérêt significatif. Les LMMs peuvent fournir des explications en langage naturel pour leurs jugements d'authenticité, améliorant l'explicabilité de la détection de contenu synthétique. Simultanément, la tâche de distinguer entre les données réelles et synthétiques teste efficacement les capacités de perception, de connaissance et de raisonnement des LMMs. En réponse, nous présentons LOKI, un nouveau banc d'essai conçu pour évaluer la capacité des LMMs à détecter des données synthétiques à travers plusieurs modalités. LOKI englobe les modalités vidéo, image, 3D, texte et audio, comprenant 18 000 questions soigneusement sélectionnées réparties dans 26 sous-catégories avec des niveaux de difficulté clairs. Le banc d'essai inclut des jugements à gros grains et des questions à choix multiples, ainsi que des tâches de sélection et d'explication d'anomalies à grains fins, permettant une analyse complète des LMMs. Nous avons évalué 22 LMMs open-source et 6 modèles à code source fermé sur LOKI, mettant en lumière leur potentiel en tant que détecteurs de données synthétiques et révélant également certaines limitations dans le développement des capacités des LMMs. Plus d'informations sur LOKI sont disponibles sur https://opendatalab.github.io/LOKI/
English
With the rapid development of AI-generated content, the future internet may
be inundated with synthetic data, making the discrimination of authentic and
credible multimodal data increasingly challenging. Synthetic data detection has
thus garnered widespread attention, and the performance of large multimodal
models (LMMs) in this task has attracted significant interest. LMMs can provide
natural language explanations for their authenticity judgments, enhancing the
explainability of synthetic content detection. Simultaneously, the task of
distinguishing between real and synthetic data effectively tests the
perception, knowledge, and reasoning capabilities of LMMs. In response, we
introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to
detect synthetic data across multiple modalities. LOKI encompasses video,
image, 3D, text, and audio modalities, comprising 18K carefully curated
questions across 26 subcategories with clear difficulty levels. The benchmark
includes coarse-grained judgment and multiple-choice questions, as well as
fine-grained anomaly selection and explanation tasks, allowing for a
comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6
closed-source models on LOKI, highlighting their potential as synthetic data
detectors and also revealing some limitations in the development of LMM
capabilities. More information about LOKI can be found at
https://opendatalab.github.io/LOKI/Summary
AI-Generated Summary