MMSearch: Оценка потенциала крупных моделей в качестве мультимодальных поисковых систем
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
September 19, 2024
Авторы: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI
Аннотация
Появление больших языковых моделей (LLM) открыло путь для искусственных интеллектуальных поисковых систем, например, SearchGPT, демонстрируя новую парадигму взаимодействия человека с интернетом. Однако большинство существующих искусственных интеллектуальных поисковых систем ограничены текстовыми настройками, игнорируя мультимодальные запросы пользователей и тексто-изображенческую природу информации на веб-сайтах. Недавно большие мультимодальные модели (LMM) сделали впечатляющие успехи. Тем не менее, остается недостаточно исследованным, могут ли они функционировать как искусственные интеллектуальные поисковые системы, что оставляет открытым вопрос о потенциале LMM в мультимодальном поиске. Для этой цели мы сначала разрабатываем тонкую конвейерную систему, MMSearch-Engine, чтобы предоставить любым LMM возможности мультимодального поиска. Помимо этого, мы представляем MMSearch, комплексный бенчмарк для оценки производительности мультимодального поиска LMM. Составленный набор данных содержит 300 вручную собранных примеров, охватывающих 14 подобластей, которые не пересекаются с данными обучения текущих LMM, обеспечивая возможность получить правильный ответ только при поиске. С использованием MMSearch-Engine LMM оцениваются путем выполнения трех отдельных задач (повторный запрос, переранжирование и суммирование) и одной сложной задачи end-to-end с полным процессом поиска. Мы проводим обширные эксперименты на закрытых и открытых LMM. Среди всех протестированных моделей GPT-4o с MMSearch-Engine достигает лучших результатов, превосходя коммерческий продукт Perplexity Pro в задаче end-to-end, демонстрируя эффективность нашей предложенной конвейерной системы. Мы также представляем анализ ошибок, чтобы раскрыть, что текущие LMM все еще сталкиваются с трудностями в полном понимании мультимодальных поисковых задач, и проводим исследование абляции, чтобы указать на потенциал масштабирования вычислений во время тестирования для искусственной интеллектуальной поисковой системы. Мы надеемся, что MMSearch может предоставить уникальные идеи для направления будущего развития мультимодальных искусственных интеллектуальных поисковых систем. Страница проекта: https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search
engines, e.g., SearchGPT, showcasing a new paradigm in human-internet
interaction. However, most current AI search engines are limited to text-only
settings, neglecting the multimodal user queries and the text-image interleaved
nature of website information. Recently, Large Multimodal Models (LMMs) have
made impressive strides. Yet, whether they can function as AI search engines
remains under-explored, leaving the potential of LMMs in multimodal search an
open question. To this end, we first design a delicate pipeline,
MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On
top of this, we introduce MMSearch, a comprehensive evaluation benchmark to
assess the multimodal search performance of LMMs. The curated dataset contains
300 manually collected instances spanning 14 subfields, which involves no
overlap with the current LMMs' training data, ensuring the correct answer can
only be obtained within searching. By using MMSearch-Engine, the LMMs are
evaluated by performing three individual tasks (requery, rerank, and
summarization), and one challenging end-to-end task with a complete searching
process. We conduct extensive experiments on closed-source and open-source
LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best
results, which surpasses the commercial product, Perplexity Pro, in the
end-to-end task, demonstrating the effectiveness of our proposed pipeline. We
further present error analysis to unveil current LMMs still struggle to fully
grasp the multimodal search tasks, and conduct ablation study to indicate the
potential of scaling test-time computation for AI search engine. We hope
MMSearch may provide unique insights to guide the future development of
multimodal AI search engine. Project Page: https://mmsearch.github.ioSummary
AI-Generated Summary