ChatPaper.aiChatPaper

LOKI : un banc d'essai complet pour la détection de données synthétiques utilisant de grands modèles multimodaux

LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

October 13, 2024
Auteurs: Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
cs.AI

Résumé

Avec le développement rapide du contenu généré par l'IA, l'internet du futur pourrait être inondé de données synthétiques, rendant de plus en plus difficile la discrimination des données multimodales authentiques et crédibles. La détection de données synthétiques a ainsi suscité une attention généralisée, et les performances des grands modèles multimodaux (LMMs) dans cette tâche ont attiré un intérêt significatif. Les LMMs peuvent fournir des explications en langage naturel pour leurs jugements d'authenticité, améliorant l'explicabilité de la détection de contenu synthétique. Simultanément, la tâche de distinguer entre les données réelles et synthétiques teste efficacement les capacités de perception, de connaissance et de raisonnement des LMMs. En réponse, nous présentons LOKI, un nouveau banc d'essai conçu pour évaluer la capacité des LMMs à détecter des données synthétiques à travers plusieurs modalités. LOKI englobe les modalités vidéo, image, 3D, texte et audio, comprenant 18 000 questions soigneusement sélectionnées réparties dans 26 sous-catégories avec des niveaux de difficulté clairs. Le banc d'essai inclut des jugements à gros grains et des questions à choix multiples, ainsi que des tâches de sélection et d'explication d'anomalies à grains fins, permettant une analyse complète des LMMs. Nous avons évalué 22 LMMs open-source et 6 modèles à code source fermé sur LOKI, mettant en lumière leur potentiel en tant que détecteurs de données synthétiques et révélant également certaines limitations dans le développement des capacités des LMMs. Plus d'informations sur LOKI sont disponibles sur https://opendatalab.github.io/LOKI/
English
With the rapid development of AI-generated content, the future internet may be inundated with synthetic data, making the discrimination of authentic and credible multimodal data increasingly challenging. Synthetic data detection has thus garnered widespread attention, and the performance of large multimodal models (LMMs) in this task has attracted significant interest. LMMs can provide natural language explanations for their authenticity judgments, enhancing the explainability of synthetic content detection. Simultaneously, the task of distinguishing between real and synthetic data effectively tests the perception, knowledge, and reasoning capabilities of LMMs. In response, we introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to detect synthetic data across multiple modalities. LOKI encompasses video, image, 3D, text, and audio modalities, comprising 18K carefully curated questions across 26 subcategories with clear difficulty levels. The benchmark includes coarse-grained judgment and multiple-choice questions, as well as fine-grained anomaly selection and explanation tasks, allowing for a comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6 closed-source models on LOKI, highlighting their potential as synthetic data detectors and also revealing some limitations in the development of LMM capabilities. More information about LOKI can be found at https://opendatalab.github.io/LOKI/

Summary

AI-Generated Summary

PDF564November 16, 2024