MMSearch: Bewertung des Potenzials großer Modelle als multimodale Suchmaschinen
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
September 19, 2024
Autoren: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI
Zusammenfassung
Das Aufkommen von Large Language Models (LLMs) hat den Weg für KI-Suchmaschinen geebnet, z. B. SearchGPT, die ein neues Paradigma in der Mensch-Internet-Interaktion zeigen. Die meisten aktuellen KI-Suchmaschinen sind jedoch auf reine Textumgebungen beschränkt und vernachlässigen die multimodalen Benutzeranfragen und die textbildverflochtene Natur von Website-Informationen. Kürzlich haben Large Multimodal Models (LMMs) beeindruckende Fortschritte gemacht. Ob sie jedoch als KI-Suchmaschinen fungieren können, bleibt weitgehend unerforscht, was das Potenzial von LMMs in der multimodalen Suche zu einer offenen Frage macht. Zu diesem Zweck entwerfen wir zunächst eine durchdachte Pipeline, MMSearch-Engine, um allen LMMs multimodale Suchfunktionen zu verleihen. Darüber hinaus führen wir MMSearch ein, einen umfassenden Evaluierungsmaßstab zur Bewertung der multimodalen Suchleistung von LMMs. Der kuratierte Datensatz enthält 300 manuell gesammelte Instanzen aus 14 Teilbereichen, die keine Überschneidungen mit den aktuellen Trainingsdaten der LMMs aufweisen, um sicherzustellen, dass die richtige Antwort nur durch die Suche erhalten werden kann. Durch die Verwendung von MMSearch-Engine werden die LMMs bewertet, indem drei einzelne Aufgaben (erneute Abfrage, Neusortierung und Zusammenfassung) sowie eine anspruchsvolle End-to-End-Aufgabe mit einem vollständigen Suchprozess durchgeführt werden. Wir führen umfangreiche Experimente mit Closed-Source- und Open-Source-LMMs durch. Unter allen getesteten Modellen erzielt GPT-4o mit MMSearch-Engine die besten Ergebnisse, die das kommerzielle Produkt Perplexity Pro in der End-to-End-Aufgabe übertreffen und die Wirksamkeit unserer vorgeschlagenen Pipeline demonstrieren. Darüber hinaus präsentieren wir eine Fehleranalyse, um aufzuzeigen, dass aktuelle LMMs nach wie vor Schwierigkeiten haben, die multimodalen Suchaufgaben vollständig zu erfassen, und führen eine Ablationsstudie durch, um das Potenzial der Skalierung der Testzeitberechnung für KI-Suchmaschinen aufzuzeigen. Wir hoffen, dass MMSearch einzigartige Einblicke liefern kann, um die zukünftige Entwicklung von multimodalen KI-Suchmaschinen zu lenken. Projektseite: https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search
engines, e.g., SearchGPT, showcasing a new paradigm in human-internet
interaction. However, most current AI search engines are limited to text-only
settings, neglecting the multimodal user queries and the text-image interleaved
nature of website information. Recently, Large Multimodal Models (LMMs) have
made impressive strides. Yet, whether they can function as AI search engines
remains under-explored, leaving the potential of LMMs in multimodal search an
open question. To this end, we first design a delicate pipeline,
MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On
top of this, we introduce MMSearch, a comprehensive evaluation benchmark to
assess the multimodal search performance of LMMs. The curated dataset contains
300 manually collected instances spanning 14 subfields, which involves no
overlap with the current LMMs' training data, ensuring the correct answer can
only be obtained within searching. By using MMSearch-Engine, the LMMs are
evaluated by performing three individual tasks (requery, rerank, and
summarization), and one challenging end-to-end task with a complete searching
process. We conduct extensive experiments on closed-source and open-source
LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best
results, which surpasses the commercial product, Perplexity Pro, in the
end-to-end task, demonstrating the effectiveness of our proposed pipeline. We
further present error analysis to unveil current LMMs still struggle to fully
grasp the multimodal search tasks, and conduct ablation study to indicate the
potential of scaling test-time computation for AI search engine. We hope
MMSearch may provide unique insights to guide the future development of
multimodal AI search engine. Project Page: https://mmsearch.github.ioSummary
AI-Generated Summary