MMSearch: Avaliando o Potencial de Modelos Grandes como Motores de Busca Multi-modais
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
September 19, 2024
Autores: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI
Resumo
O advento dos Modelos de Linguagem Grandes (LLMs) abriu caminho para os motores de busca de IA, por exemplo, o SearchGPT, demonstrando um novo paradigma na interação humano-internet. No entanto, a maioria dos atuais motores de busca de IA está limitada a configurações apenas de texto, negligenciando as consultas de usuários multimodais e a natureza entrelaçada de texto e imagem das informações de websites. Recentemente, os Modelos Multimodais Grandes (LMMs) têm feito progressos impressionantes. No entanto, se eles podem funcionar como motores de busca de IA ainda não foi explorado, deixando em aberto a questão do potencial dos LMMs na busca multimodal. Para isso, primeiro projetamos um pipeline delicado, MMSearch-Engine, para capacitar qualquer LMM com capacidades de busca multimodal. Além disso, introduzimos o MMSearch, um benchmark abrangente de avaliação para avaliar o desempenho de busca multimodal dos LMMs. O conjunto de dados curado contém 300 instâncias coletadas manualmente abrangendo 14 subcampos, que não têm sobreposição com os dados de treinamento dos LMMs atuais, garantindo que a resposta correta só possa ser obtida por meio da busca. Utilizando o MMSearch-Engine, os LMMs são avaliados realizando três tarefas individuais (nova consulta, reclassificação e sumarização), e uma tarefa desafiadora de ponta a ponta com um processo de busca completo. Realizamos experimentos extensivos em LMMs de código fechado e de código aberto. Entre todos os modelos testados, o GPT-4o com o MMSearch-Engine alcança os melhores resultados, superando o produto comercial, Perplexity Pro, na tarefa de ponta a ponta, demonstrando a eficácia de nosso pipeline proposto. Apresentamos ainda uma análise de erros para revelar que os LMMs atuais ainda lutam para compreender totalmente as tarefas de busca multimodal, e realizamos um estudo de ablação para indicar o potencial de escalar a computação no tempo de teste para motores de busca de IA. Esperamos que o MMSearch possa fornecer insights únicos para orientar o futuro desenvolvimento de motores de busca de IA multimodais. Página do Projeto: https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search
engines, e.g., SearchGPT, showcasing a new paradigm in human-internet
interaction. However, most current AI search engines are limited to text-only
settings, neglecting the multimodal user queries and the text-image interleaved
nature of website information. Recently, Large Multimodal Models (LMMs) have
made impressive strides. Yet, whether they can function as AI search engines
remains under-explored, leaving the potential of LMMs in multimodal search an
open question. To this end, we first design a delicate pipeline,
MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On
top of this, we introduce MMSearch, a comprehensive evaluation benchmark to
assess the multimodal search performance of LMMs. The curated dataset contains
300 manually collected instances spanning 14 subfields, which involves no
overlap with the current LMMs' training data, ensuring the correct answer can
only be obtained within searching. By using MMSearch-Engine, the LMMs are
evaluated by performing three individual tasks (requery, rerank, and
summarization), and one challenging end-to-end task with a complete searching
process. We conduct extensive experiments on closed-source and open-source
LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best
results, which surpasses the commercial product, Perplexity Pro, in the
end-to-end task, demonstrating the effectiveness of our proposed pipeline. We
further present error analysis to unveil current LMMs still struggle to fully
grasp the multimodal search tasks, and conduct ablation study to indicate the
potential of scaling test-time computation for AI search engine. We hope
MMSearch may provide unique insights to guide the future development of
multimodal AI search engine. Project Page: https://mmsearch.github.ioSummary
AI-Generated Summary