Asistente de Búsqueda Visual: Potenciar los Modelos de Visión-Lenguaje como Motores de Búsqueda Multimodales
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Autores: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Resumen
Los motores de búsqueda permiten la recuperación de información desconocida a través de textos. Sin embargo, los métodos tradicionales son insuficientes cuando se trata de comprender contenido visual desconocido, como identificar un objeto que el modelo nunca ha visto antes. Este desafío es especialmente notable para los modelos de visión-lenguaje (VLMs) a gran escala: si el modelo no ha sido expuesto al objeto representado en una imagen, le resulta difícil generar respuestas confiables a la pregunta del usuario sobre esa imagen. Además, dado que constantemente surgen nuevos objetos y eventos, actualizar frecuentemente los VLMs resulta poco práctico debido a las pesadas cargas computacionales. Para abordar esta limitación, proponemos Vision Search Assistant, un marco novedoso que facilita la colaboración entre los VLMs y agentes web. Este enfoque aprovecha las capacidades de comprensión visual de los VLMs y el acceso a información en tiempo real de los agentes web para llevar a cabo Generación con Recuperación Aumentada en un mundo abierto a través de la web. Al integrar representaciones visuales y textuales a través de esta colaboración, el modelo puede proporcionar respuestas informadas incluso cuando la imagen es nueva para el sistema. Experimentos extensos realizados en bancos de pruebas de preguntas y respuestas tanto de conjunto abierto como cerrado demuestran que el Vision Search Assistant supera significativamente a otros modelos y puede aplicarse ampliamente a los VLMs existentes.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary