Помощник по поиску по видео: усиление моделей видео-языка как мультимодальных поисковых систем.
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
October 28, 2024
Авторы: Zhixin Zhang, Yiyuan Zhang, Xiaohan Ding, Xiangyu Yue
cs.AI
Аннотация
Поисковые системы позволяют извлекать неизвестную информацию из текстов. Однако традиционные методы оказываются неэффективными, когда речь идет о понимании незнакомого визуального контента, такого как идентификация объекта, который модель никогда ранее не видела. Эта проблема особенно остро проявляется для крупных моделей видео-языка (VLM), поскольку если модель не сталкивалась с объектом, изображенным на изображении, ей трудно генерировать надежные ответы на вопросы пользователя относительно этого изображения. Более того, поскольку новые объекты и события постоянно появляются, частое обновление VLM является непрактичным из-за значительной вычислительной нагрузки. Для преодоления этого ограничения мы предлагаем Vision Search Assistant, новую концепцию, которая способствует сотрудничеству между моделями VLM и веб-агентами. Этот подход использует возможности визуального понимания VLM и доступ к информации в реальном времени веб-агентов для выполнения Retrieval-Augmented Generation через веб в открытом мире. Путем интеграции визуальных и текстовых представлений через это сотрудничество модель может предоставлять информированные ответы даже в случае, если изображение ново для системы. Обширные эксперименты, проведенные как на открытых, так и на закрытых наборах данных для вопросов и ответов, показывают, что Vision Search Assistant значительно превосходит другие модели и может быть широко применен к существующим моделям VLM.
English
Search engines enable the retrieval of unknown information with texts.
However, traditional methods fall short when it comes to understanding
unfamiliar visual content, such as identifying an object that the model has
never seen before. This challenge is particularly pronounced for large
vision-language models (VLMs): if the model has not been exposed to the object
depicted in an image, it struggles to generate reliable answers to the user's
question regarding that image. Moreover, as new objects and events continuously
emerge, frequently updating VLMs is impractical due to heavy computational
burdens. To address this limitation, we propose Vision Search Assistant, a
novel framework that facilitates collaboration between VLMs and web agents.
This approach leverages VLMs' visual understanding capabilities and web agents'
real-time information access to perform open-world Retrieval-Augmented
Generation via the web. By integrating visual and textual representations
through this collaboration, the model can provide informed responses even when
the image is novel to the system. Extensive experiments conducted on both
open-set and closed-set QA benchmarks demonstrate that the Vision Search
Assistant significantly outperforms the other models and can be widely applied
to existing VLMs.Summary
AI-Generated Summary