От веба к пикселям: внедрение агентного поиска в визуальное восприятие

Аннотация

Визуальное восприятие соединяет высокоуровневое семантическое понимание с восприятием на уровне пикселей, однако большинство существующих конфигураций предполагают, что решающие доказательства для идентификации цели уже содержатся в изображении или в замороженных знаниях модели. Мы исследуем более практичный, но и более сложный случай открытого мира, когда видимый объект сначала должен быть выведен из внешних фактов, недавних событий, редких сущностей или многозвенных отношений, прежде чем его можно будет локализовать. Мы формализуем эту задачу как Глубокое исследование восприятия (Perception Deep Research) и представляем WebEye — объектно-ориентированный бенчмарк с проверяемыми доказательствами, запросами, требующими интенсивных знаний, точными разметками рамок и масок, а также тремя вариантами задач: Поисковое обоснование (Search-based Grounding), Поисковая сегментация (Search-based Segmentation) и Поисковый VQA (Search-based VQA). WebEye содержит 120 изображений, 473 аннотированных экземпляра объектов, 645 уникальных пар вопрос-ответ и 1 927 образцов задач. Дополнительно мы предлагаем Pixel-Searcher — агентный рабочий процесс «от поиска к пикселям», который разрешает скрытые идентичности целей и связывает их с рамками, масками или обоснованными ответами. Эксперименты показывают, что Pixel-Searcher достигает наивысшей производительности среди открытых решений по всем трём вариантам задач, при этом основные ошибки возникают на этапах получения доказательств, разрешения идентичности и связывания визуальных экземпляров.

English

Visual perception connects high-level semantic understanding to pixel-level perception, but most existing settings assume that the decisive evidence for identifying a target is already in the image or frozen model knowledge. We study a more practical yet harder open-world case where a visible object must first be resolved from external facts, recent events, long-tail entities, or multi-hop relations before it can be localized. We formalize this challenge as Perception Deep Research and introduce WebEye, an object-anchored benchmark with verifiable evidence, knowledge-intensive queries, precise box/mask annotations, and three task views: Search-based Grounding, Search-based Segmentation, and Search-based VQA. WebEyes contains 120 images, 473 annotated object instances, 645 unique QA pairs, and 1,927 task samples. We further propose Pixel-Searcher, an agentic search-to-pixel workflow that resolves hidden target identities and binds them to boxes, masks, or grounded answers. Experiments show that Pixel-Searcher achieves the strongest open-source performance across all three task views, while failures mainly arise from evidence acquisition, identity resolution, and visual instance binding.

От веба к пикселям: внедрение агентного поиска в визуальное восприятие

From Web to Pixels: Bringing Agentic Search into Visual Perception

Аннотация

Support