Assistente de Busca Visual: Capacitar Modelos de Visão e Linguagem como Motores de Busca Multimodais

Resumo

Os motores de busca permitem a recuperação de informações desconhecidas por meio de textos. No entanto, os métodos tradicionais são limitados quando se trata de compreender conteúdo visual desconhecido, como identificar um objeto que o modelo nunca viu antes. Este desafio é particularmente evidente para os grandes modelos de visão e linguagem (VLMs): se o modelo não foi exposto ao objeto representado em uma imagem, ele tem dificuldade em gerar respostas confiáveis para a pergunta do usuário sobre essa imagem. Além disso, à medida que novos objetos e eventos surgem continuamente, atualizar frequentemente os VLMs é impraticável devido ao alto ônus computacional. Para lidar com essa limitação, propomos o Assistente de Busca Visual, um novo framework que facilita a colaboração entre VLMs e agentes da web. Esta abordagem aproveita as capacidades de compreensão visual dos VLMs e o acesso a informações em tempo real dos agentes da web para realizar Geração com Recuperação Aprimorada de Mundo Aberto via web. Ao integrar representações visuais e textuais por meio dessa colaboração, o modelo pode fornecer respostas informadas mesmo quando a imagem é nova para o sistema. Experimentos extensos realizados em benchmarks de perguntas e respostas tanto de conjunto aberto quanto fechado demonstram que o Assistente de Busca Visual supera significativamente os outros modelos e pode ser amplamente aplicado aos VLMs existentes.

English

Search engines enable the retrieval of unknown information with texts. However, traditional methods fall short when it comes to understanding unfamiliar visual content, such as identifying an object that the model has never seen before. This challenge is particularly pronounced for large vision-language models (VLMs): if the model has not been exposed to the object depicted in an image, it struggles to generate reliable answers to the user's question regarding that image. Moreover, as new objects and events continuously emerge, frequently updating VLMs is impractical due to heavy computational burdens. To address this limitation, we propose Vision Search Assistant, a novel framework that facilitates collaboration between VLMs and web agents. This approach leverages VLMs' visual understanding capabilities and web agents' real-time information access to perform open-world Retrieval-Augmented Generation via the web. By integrating visual and textual representations through this collaboration, the model can provide informed responses even when the image is novel to the system. Extensive experiments conducted on both open-set and closed-set QA benchmarks demonstrate that the Vision Search Assistant significantly outperforms the other models and can be widely applied to existing VLMs.

Assistente de Busca Visual: Capacitar Modelos de Visão e Linguagem como Motores de Busca Multimodais

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

Resumo

Support