ChatPaper.aiChatPaper

MMSearch: Het beoordelen van het potentieel van grote modellen als multimodale Zoekmachines

MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

September 19, 2024
Auteurs: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI

Samenvatting

De opkomst van Grote Taalmodellen (LLM's) heeft de weg vrijgemaakt voor AI-zoekmachines, bijvoorbeeld SearchGPT, die een nieuw paradigma in mens-internetinteractie laten zien. Echter, de meeste huidige AI-zoekmachines zijn beperkt tot alleen tekstinstellingen, waarbij de multimodale gebruikersquery's en de tekst-afbeelding geïnterlinieerde aard van website-informatie worden genegeerd. Onlangs hebben Grote Multimodale Modellen (LMM's) indrukwekkende vooruitgang geboekt. Toch blijft de vraag of ze kunnen functioneren als AI-zoekmachines onderbelicht, waardoor het potentieel van LMM's in multimodale zoekopdrachten een open vraag blijft. Om dit te onderzoeken, ontwerpen we eerst een verfijnde pijplijn, MMSearch-Engine, om elk LMM te voorzien van multimodale zoekmogelijkheden. Bovendien introduceren we MMSearch, een uitgebreide evaluatiebenchmark om de multimodale zoekprestaties van LMM's te beoordelen. Het samengestelde dataset bevat 300 handmatig verzamelde gevallen die 14 subgebieden bestrijken, zonder overlap met de huidige trainingsgegevens van LMM's, waardoor het juiste antwoord alleen kan worden verkregen door te zoeken. Door gebruik te maken van MMSearch-Engine worden de LMM's geëvalueerd door drie afzonderlijke taken uit te voeren (heropvragen, opnieuw rangschikken en samenvatten), en één uitdagende end-to-end taak met een volledig zoekproces. We voeren uitgebreide experimenten uit op gesloten en open-source LMM's. Onder alle geteste modellen behaalt GPT-4o met MMSearch-Engine de beste resultaten, die de commerciële product, Perplexity Pro, overtreffen in de end-to-end taak, waarbij de effectiviteit van onze voorgestelde pijplijn wordt aangetoond. We presenteren verder foutenanalyse om bloot te leggen dat huidige LMM's nog steeds moeite hebben om de multimodale zoektaken volledig te begrijpen, en voeren een ablatiestudie uit om het potentieel van het schalen van testtijd berekening voor AI-zoekmachine aan te geven. We hopen dat MMSearch unieke inzichten kan bieden om de toekomstige ontwikkeling van multimodale AI-zoekmachine te sturen. Projectpagina: https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search engines, e.g., SearchGPT, showcasing a new paradigm in human-internet interaction. However, most current AI search engines are limited to text-only settings, neglecting the multimodal user queries and the text-image interleaved nature of website information. Recently, Large Multimodal Models (LMMs) have made impressive strides. Yet, whether they can function as AI search engines remains under-explored, leaving the potential of LMMs in multimodal search an open question. To this end, we first design a delicate pipeline, MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On top of this, we introduce MMSearch, a comprehensive evaluation benchmark to assess the multimodal search performance of LMMs. The curated dataset contains 300 manually collected instances spanning 14 subfields, which involves no overlap with the current LMMs' training data, ensuring the correct answer can only be obtained within searching. By using MMSearch-Engine, the LMMs are evaluated by performing three individual tasks (requery, rerank, and summarization), and one challenging end-to-end task with a complete searching process. We conduct extensive experiments on closed-source and open-source LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best results, which surpasses the commercial product, Perplexity Pro, in the end-to-end task, demonstrating the effectiveness of our proposed pipeline. We further present error analysis to unveil current LMMs still struggle to fully grasp the multimodal search tasks, and conduct ablation study to indicate the potential of scaling test-time computation for AI search engine. We hope MMSearch may provide unique insights to guide the future development of multimodal AI search engine. Project Page: https://mmsearch.github.io

Summary

AI-Generated Summary

PDF382November 16, 2024