LOKI: Комплексный бенчмарк обнаружения синтетических данных с использованием крупных мультимодальных моделей

Аннотация

С быстрым развитием контента, созданного искусственным интеллектом, будущее интернета может быть затоплено синтетическими данными, что делает различение подлинных и достоверных мультимодальных данных все более сложным. Обнаружение синтетических данных привлекло широкое внимание, и производительность крупных мультимодальных моделей (LMM) в этой задаче привлекла значительный интерес. LMM могут предоставлять естественноязыковые объяснения для своих оценок подлинности, улучшая объяснимость обнаружения синтетического контента. Одновременно задача различения реальных и синтетических данных эффективно проверяет способности восприятия, знаний и рассуждений LMM. В ответ мы представляем LOKI, новый бенчмарк, разработанный для оценки способности LMM обнаруживать синтетические данные в различных модальностях. LOKI охватывает видео, изображения, 3D, текст и аудио, включая 18 тыс. тщательно отобранных вопросов по 26 подкатегориям с четкими уровнями сложности. Бенчмарк включает грубо-зернистые оценки и вопросы с выбором из нескольких вариантов ответов, а также задачи fein-гранулированного выбора аномалий и объяснения, позволяя провести всесторонний анализ LMM. Мы оценили 22 открытых LMM и 6 закрытых моделей на LOKI, выявив их потенциал в качестве обнаружителей синтетических данных и также выявив некоторые ограничения в развитии возможностей LMM. Более подробную информацию о LOKI можно найти на https://opendatalab.github.io/LOKI/

English

With the rapid development of AI-generated content, the future internet may be inundated with synthetic data, making the discrimination of authentic and credible multimodal data increasingly challenging. Synthetic data detection has thus garnered widespread attention, and the performance of large multimodal models (LMMs) in this task has attracted significant interest. LMMs can provide natural language explanations for their authenticity judgments, enhancing the explainability of synthetic content detection. Simultaneously, the task of distinguishing between real and synthetic data effectively tests the perception, knowledge, and reasoning capabilities of LMMs. In response, we introduce LOKI, a novel benchmark designed to evaluate the ability of LMMs to detect synthetic data across multiple modalities. LOKI encompasses video, image, 3D, text, and audio modalities, comprising 18K carefully curated questions across 26 subcategories with clear difficulty levels. The benchmark includes coarse-grained judgment and multiple-choice questions, as well as fine-grained anomaly selection and explanation tasks, allowing for a comprehensive analysis of LMMs. We evaluated 22 open-source LMMs and 6 closed-source models on LOKI, highlighting their potential as synthetic data detectors and also revealing some limitations in the development of LMM capabilities. More information about LOKI can be found at https://opendatalab.github.io/LOKI/

LOKI: Комплексный бенчмарк обнаружения синтетических данных с использованием крупных мультимодальных моделей

LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

Аннотация

Support