MMSearch: Evaluación del Potencial de Modelos Grandes como Motores de Búsqueda Multi-modales
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines
September 19, 2024
Autores: Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li
cs.AI
Resumen
La llegada de los Modelos de Lenguaje Grandes (LLMs) ha allanado el camino para los motores de búsqueda de IA, por ejemplo, SearchGPT, mostrando un nuevo paradigma en la interacción humano-internet. Sin embargo, la mayoría de los actuales motores de búsqueda de IA se limitan a entornos solo de texto, descuidando las consultas de usuarios multimodales y la naturaleza entrelazada de texto e imagen de la información en los sitios web. Recientemente, los Modelos Multimodales Grandes (LMMs) han logrado avances impresionantes. Aún así, si pueden funcionar como motores de búsqueda de IA sigue siendo poco explorado, dejando la potencialidad de los LMMs en la búsqueda multimodal como una pregunta abierta. Con este fin, primero diseñamos un delicado pipeline, MMSearch-Engine, para dotar a cualquier LMM con capacidades de búsqueda multimodal. Además, presentamos MMSearch, un benchmark de evaluación integral para evaluar el rendimiento de búsqueda multimodal de los LMMs. El conjunto de datos curado contiene 300 instancias recopiladas manualmente que abarcan 14 subcampos, sin superposición con los datos de entrenamiento actuales de los LMMs, asegurando que la respuesta correcta solo se pueda obtener mediante la búsqueda. Utilizando MMSearch-Engine, los LMMs son evaluados realizando tres tareas individuales (reconsulta, reordenamiento y resumen) y una tarea desafiante de extremo a extremo con un proceso de búsqueda completo. Realizamos experimentos exhaustivos en LMMs de código cerrado y de código abierto. Entre todos los modelos probados, GPT-4o con MMSearch-Engine logra los mejores resultados, superando al producto comercial, Perplexity Pro, en la tarea de extremo a extremo, demostrando la efectividad de nuestro pipeline propuesto. Además, presentamos un análisis de errores para revelar que los LMMs actuales aún luchan por comprender completamente las tareas de búsqueda multimodal, y realizamos un estudio de ablación para indicar el potencial de escalar la computación en tiempo de prueba para motores de búsqueda de IA. Esperamos que MMSearch pueda proporcionar ideas únicas para guiar el futuro desarrollo de motores de búsqueda de IA multimodales. Página del Proyecto: https://mmsearch.github.io
English
The advent of Large Language Models (LLMs) has paved the way for AI search
engines, e.g., SearchGPT, showcasing a new paradigm in human-internet
interaction. However, most current AI search engines are limited to text-only
settings, neglecting the multimodal user queries and the text-image interleaved
nature of website information. Recently, Large Multimodal Models (LMMs) have
made impressive strides. Yet, whether they can function as AI search engines
remains under-explored, leaving the potential of LMMs in multimodal search an
open question. To this end, we first design a delicate pipeline,
MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On
top of this, we introduce MMSearch, a comprehensive evaluation benchmark to
assess the multimodal search performance of LMMs. The curated dataset contains
300 manually collected instances spanning 14 subfields, which involves no
overlap with the current LMMs' training data, ensuring the correct answer can
only be obtained within searching. By using MMSearch-Engine, the LMMs are
evaluated by performing three individual tasks (requery, rerank, and
summarization), and one challenging end-to-end task with a complete searching
process. We conduct extensive experiments on closed-source and open-source
LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best
results, which surpasses the commercial product, Perplexity Pro, in the
end-to-end task, demonstrating the effectiveness of our proposed pipeline. We
further present error analysis to unveil current LMMs still struggle to fully
grasp the multimodal search tasks, and conduct ablation study to indicate the
potential of scaling test-time computation for AI search engine. We hope
MMSearch may provide unique insights to guide the future development of
multimodal AI search engine. Project Page: https://mmsearch.github.ioSummary
AI-Generated Summary