Asistente de Búsqueda Visual: Potenciar los Modelos de Visión-Lenguaje como Motores de Búsqueda Multimodales

Resumen

Los motores de búsqueda permiten la recuperación de información desconocida a través de textos. Sin embargo, los métodos tradicionales son insuficientes cuando se trata de comprender contenido visual desconocido, como identificar un objeto que el modelo nunca ha visto antes. Este desafío es especialmente notable para los modelos de visión-lenguaje (VLMs) a gran escala: si el modelo no ha sido expuesto al objeto representado en una imagen, le resulta difícil generar respuestas confiables a la pregunta del usuario sobre esa imagen. Además, dado que constantemente surgen nuevos objetos y eventos, actualizar frecuentemente los VLMs resulta poco práctico debido a las pesadas cargas computacionales. Para abordar esta limitación, proponemos Vision Search Assistant, un marco novedoso que facilita la colaboración entre los VLMs y agentes web. Este enfoque aprovecha las capacidades de comprensión visual de los VLMs y el acceso a información en tiempo real de los agentes web para llevar a cabo Generación con Recuperación Aumentada en un mundo abierto a través de la web. Al integrar representaciones visuales y textuales a través de esta colaboración, el modelo puede proporcionar respuestas informadas incluso cuando la imagen es nueva para el sistema. Experimentos extensos realizados en bancos de pruebas de preguntas y respuestas tanto de conjunto abierto como cerrado demuestran que el Vision Search Assistant supera significativamente a otros modelos y puede aplicarse ampliamente a los VLMs existentes.

English

Search engines enable the retrieval of unknown information with texts. However, traditional methods fall short when it comes to understanding unfamiliar visual content, such as identifying an object that the model has never seen before. This challenge is particularly pronounced for large vision-language models (VLMs): if the model has not been exposed to the object depicted in an image, it struggles to generate reliable answers to the user's question regarding that image. Moreover, as new objects and events continuously emerge, frequently updating VLMs is impractical due to heavy computational burdens. To address this limitation, we propose Vision Search Assistant, a novel framework that facilitates collaboration between VLMs and web agents. This approach leverages VLMs' visual understanding capabilities and web agents' real-time information access to perform open-world Retrieval-Augmented Generation via the web. By integrating visual and textual representations through this collaboration, the model can provide informed responses even when the image is novel to the system. Extensive experiments conducted on both open-set and closed-set QA benchmarks demonstrate that the Vision Search Assistant significantly outperforms the other models and can be widely applied to existing VLMs.

Asistente de Búsqueda Visual: Potenciar los Modelos de Visión-Lenguaje como Motores de Búsqueda Multimodales

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Resumen

Support