MMSearch : Évaluation du potentiel des grands modèles en tant que moteurs de recherche multi-modaux
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
September 19, 2024
Auteurs: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI
Résumé
L'avènement des Grands Modèles de Langage (GML) a ouvert la voie aux moteurs de recherche en IA, par exemple, SearchGPT, mettant en avant un nouveau paradigme dans l'interaction humain-internet. Cependant, la plupart des moteurs de recherche en IA actuels se limitent aux paramètres textuels, négligeant les requêtes utilisateur multimodales et la nature entrelacée texte-image des informations sur les sites web. Récemment, les Grands Modèles Multimodaux (GMM) ont réalisé des progrès impressionnants. Pourtant, leur capacité à fonctionner en tant que moteurs de recherche en IA reste peu explorée, laissant la question ouverte sur le potentiel des GMM dans la recherche multimodale. À cette fin, nous concevons d'abord un pipeline délicat, MMSearch-Engine, pour doter tout GMM de capacités de recherche multimodale. En plus de cela, nous introduisons MMSearch, un banc d'essai d'évaluation complet pour évaluer les performances de recherche multimodale des GMM. Le jeu de données sélectionné contient 300 exemples collectés manuellement couvrant 14 sous-domaines, sans chevauchement avec les données d'entraînement actuelles des GMM, garantissant que la réponse correcte ne peut être obtenue que par la recherche. En utilisant MMSearch-Engine, les GMM sont évalués en réalisant trois tâches individuelles (recherche à nouveau, re-classement et résumé), ainsi qu'une tâche complète et difficile avec un processus de recherche complet. Nous menons des expériences approfondies sur des GMM à code source fermé et ouvert. Parmi tous les modèles testés, GPT-4o avec MMSearch-Engine obtient les meilleurs résultats, dépassant le produit commercial, Perplexity Pro, dans la tâche de bout en bout, démontrant l'efficacité de notre pipeline proposé. Nous présentons en outre une analyse des erreurs pour révéler que les GMM actuels ont encore du mal à saisir pleinement les tâches de recherche multimodale, et réalisons une étude d'ablation pour indiquer le potentiel de l'augmentation de la puissance de calcul au moment des tests pour les moteurs de recherche en IA. Nous espérons que MMSearch pourra offrir des perspectives uniques pour orienter le développement futur des moteurs de recherche en IA multimodaux. Page du projet : https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search
engines, e.g., SearchGPT, showcasing a new paradigm in human-internet
interaction. However, most current AI search engines are limited to text-only
settings, neglecting the multimodal user queries and the text-image interleaved
nature of website information. Recently, Large Multimodal Models (LMMs) have
made impressive strides. Yet, whether they can function as AI search engines
remains under-explored, leaving the potential of LMMs in multimodal search an
open question. To this end, we first design a delicate pipeline,
MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On
top of this, we introduce MMSearch, a comprehensive evaluation benchmark to
assess the multimodal search performance of LMMs. The curated dataset contains
300 manually collected instances spanning 14 subfields, which involves no
overlap with the current LMMs' training data, ensuring the correct answer can
only be obtained within searching. By using MMSearch-Engine, the LMMs are
evaluated by performing three individual tasks (requery, rerank, and
summarization), and one challenging end-to-end task with a complete searching
process. We conduct extensive experiments on closed-source and open-source
LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best
results, which surpasses the commercial product, Perplexity Pro, in the
end-to-end task, demonstrating the effectiveness of our proposed pipeline. We
further present error analysis to unveil current LMMs still struggle to fully
grasp the multimodal search tasks, and conduct ablation study to indicate the
potential of scaling test-time computation for AI search engine. We hope
MMSearch may provide unique insights to guide the future development of
multimodal AI search engine. Project Page: https://mmsearch.github.ioSummary
AI-Generated Summary