Assistente de Busca Visual: Capacitar Modelos de Visão e Linguagem como Motores de Busca Multimodais
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Autores: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Resumo
Os motores de busca permitem a recuperação de informações desconhecidas por meio de textos. No entanto, os métodos tradicionais são limitados quando se trata de compreender conteúdo visual desconhecido, como identificar um objeto que o modelo nunca viu antes. Este desafio é particularmente evidente para os grandes modelos de visão e linguagem (VLMs): se o modelo não foi exposto ao objeto representado em uma imagem, ele tem dificuldade em gerar respostas confiáveis para a pergunta do usuário sobre essa imagem. Além disso, à medida que novos objetos e eventos surgem continuamente, atualizar frequentemente os VLMs é impraticável devido ao alto ônus computacional. Para lidar com essa limitação, propomos o Assistente de Busca Visual, um novo framework que facilita a colaboração entre VLMs e agentes da web. Esta abordagem aproveita as capacidades de compreensão visual dos VLMs e o acesso a informações em tempo real dos agentes da web para realizar Geração com Recuperação Aprimorada de Mundo Aberto via web. Ao integrar representações visuais e textuais por meio dessa colaboração, o modelo pode fornecer respostas informadas mesmo quando a imagem é nova para o sistema. Experimentos extensos realizados em benchmarks de perguntas e respostas tanto de conjunto aberto quanto fechado demonstram que o Assistente de Busca Visual supera significativamente os outros modelos e pode ser amplamente aplicado aos VLMs existentes.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary