ChatPaper.aiChatPaper

Помощник по поиску по видео: усиление моделей видео-языка как мультимодальных поисковых систем.

Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines

October 28, 2024
Авторы: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI

Аннотация

Поисковые системы позволяют извлекать неизвестную информацию из текстов. Однако традиционные методы оказываются неэффективными, когда речь идет о понимании незнакомого визуального контента, такого как идентификация объекта, который модель никогда ранее не видела. Эта проблема особенно остро проявляется для крупных моделей видео-языка (VLM), поскольку если модель не сталкивалась с объектом, изображенным на изображении, ей трудно генерировать надежные ответы на вопросы пользователя относительно этого изображения. Более того, поскольку новые объекты и события постоянно появляются, частое обновление VLM является непрактичным из-за значительной вычислительной нагрузки. Для преодоления этого ограничения мы предлагаем Vision Search Assistant, новую концепцию, которая способствует сотрудничеству между моделями VLM и веб-агентами. Этот подход использует возможности визуального понимания VLM и доступ к информации в реальном времени веб-агентов для выполнения Retrieval-Augmented Generation через веб в открытом мире. Путем интеграции визуальных и текстовых представлений через это сотрудничество модель может предоставлять информированные ответы даже в случае, если изображение ново для системы. Обширные эксперименты, проведенные как на открытых, так и на закрытых наборах данных для вопросов и ответов, показывают, что Vision Search Assistant значительно превосходит другие модели и может быть широко применен к существующим моделям VLM.
English
Search engines enable the retrieval of unknown information with texts. However, traditional methods fall short when it comes to understanding unfamiliar visual content, such as identifying an object that the model has never seen before. This challenge is particularly pronounced for large vision-language models (VLMs): if the model has not been exposed to the object depicted in an image, it struggles to generate reliable answers to the user's question regarding that image. Moreover, as new objects and events continuously emerge, frequently updating VLMs is impractical due to heavy computational burdens. To address this limitation, we propose Vision Search Assistant, a novel framework that facilitates collaboration between VLMs and web agents. This approach leverages VLMs' visual understanding capabilities and web agents' real-time information access to perform open-world Retrieval-Augmented Generation via the web. By integrating visual and textual representations through this collaboration, the model can provide informed responses even when the image is novel to the system. Extensive experiments conducted on both open-set and closed-set QA benchmarks demonstrate that the Vision Search Assistant significantly outperforms the other models and can be widely applied to existing VLMs.

Summary

AI-Generated Summary

PDF102November 16, 2024