Du Web aux pixels : intégrer la recherche agentique dans la perception visuelle

Résumé

La perception visuelle relie la compréhension sémantique de haut niveau à la perception au niveau des pixels, mais la plupart des configurations existantes supposent que la preuve décisive pour identifier une cible se trouve déjà dans l'image ou dans les connaissances figées du modèle. Nous étudions un cas plus pratique mais plus difficile en monde ouvert, où un objet visible doit d'abord être résolu à partir de faits externes, d'événements récents, d'entités de longue traîne ou de relations multi-sauts avant de pouvoir être localisé. Nous formalisons ce défi sous le nom de Perception Deep Research et introduisons WebEye, un benchmark ancré sur les objets avec des preuves vérifiables, des requêtes intensives en connaissances, des annotations précises de boîtes/masques, et trois vues de tâches : Search-based Grounding, Search-based Segmentation et Search-based VQA. WebEyes contient 120 images, 473 instances d'objets annotées, 645 paires QA uniques et 1 927 échantillons de tâches. Nous proposons également Pixel-Searcher, un workflow agentique de recherche-à-pixel qui résout les identités cachées des cibles et les lie à des boîtes, des masques ou des réponses ancrées. Les expériences montrent que Pixel-Searcher obtient les meilleures performances open-source dans les trois vues de tâches, tandis que les échecs proviennent principalement de l'acquisition de preuves, de la résolution d'identité et de la liaison d'instances visuelles.

English

Visual perception connects high-level semantic understanding to pixel-level perception, but most existing settings assume that the decisive evidence for identifying a target is already in the image or frozen model knowledge. We study a more practical yet harder open-world case where a visible object must first be resolved from external facts, recent events, long-tail entities, or multi-hop relations before it can be localized. We formalize this challenge as Perception Deep Research and introduce WebEye, an object-anchored benchmark with verifiable evidence, knowledge-intensive queries, precise box/mask annotations, and three task views: Search-based Grounding, Search-based Segmentation, and Search-based VQA. WebEyes contains 120 images, 473 annotated object instances, 645 unique QA pairs, and 1,927 task samples. We further propose Pixel-Searcher, an agentic search-to-pixel workflow that resolves hidden target identities and binds them to boxes, masks, or grounded answers. Experiments show that Pixel-Searcher achieves the strongest open-source performance across all three task views, while failures mainly arise from evidence acquisition, identity resolution, and visual instance binding.

Du Web aux pixels : intégrer la recherche agentique dans la perception visuelle

From Web to Pixels: Bringing Agentic Search into Visual Perception

Résumé

Support