LOKI: Комплексный бенчмарк обнаружения синтетических данных с использованием крупных мультимодальных моделей
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models
October 13, 2024
Авторы: Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
cs.AI
Аннотация
С быстрым развитием контента, созданного искусственным интеллектом, будущее интернета может быть затоплено синтетическими данными, что делает различение подлинных и достоверных мультимодальных данных все более сложным. Обнаружение синтетических данных привлекло широкое внимание, и производительность крупных мультимодальных моделей (LMM) в этой задаче привлекла значительный интерес. LMM могут предоставлять естественноязыковые объяснения для своих оценок подлинности, улучшая объяснимость обнаружения синтетического контента. Одновременно задача различения реальных и синтетических данных эффективно проверяет способности восприятия, знаний и рассуждений LMM. В ответ мы представляем LOKI, новый бенчмарк, разработанный для оценки способности LMM обнаруживать синтетические данные в различных модальностях. LOKI охватывает видео, изображения, 3D, текст и аудио, включая 18 тыс. тщательно отобранных вопросов по 26 подкатегориям с четкими уровнями сложности. Бенчмарк включает грубо-зернистые оценки и вопросы с выбором из нескольких вариантов ответов, а также задачи fein-гранулированного выбора аномалий и объяснения, позволяя провести всесторонний анализ LMM. Мы оценили 22 открытых LMM и 6 закрытых моделей на LOKI, выявив их потенциал в качестве обнаружителей синтетических данных и также выявив некоторые ограничения в развитии возможностей LMM. Более подробную информацию о LOKI можно найти на https://opendatalab.github.io/LOKI/
English
With the rapid development of AI-generated content, the future internet may
be inundated with synthetic data, making the discrimination of authentic and
credible multimodal data increasingly challenging. Synthetic data detection has
thus garnered widespread attention, and the performance of large multimodal
models (LMMs) in this task has attracted significant interest. LMMs can provide
natural language explanations for their authenticity judgments, enhancing the
explainability of synthetic content detection. Simultaneously, the task of
distinguishing between real and synthetic data effectively tests the
perception, knowledge, and reasoning capabilities of LMMs. In response, we
introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to
detect synthetic data across multiple modalities. LOKI encompasses video,
image, 3D, text, and audio modalities, comprising 18K carefully curated
questions across 26 subcategories with clear difficulty levels. The benchmark
includes coarse-grained judgment and multiple-choice questions, as well as
fine-grained anomaly selection and explanation tasks, allowing for a
comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6
closed-source models on LOKI, highlighting their potential as synthetic data
detectors and also revealing some limitations in the development of LMM
capabilities. More information about LOKI can be found at
https://opendatalab.github.io/LOKI/Summary
AI-Generated Summary