Vom Web zu Pixeln: Die Integration agentischer Suche in die visuelle Wahrnehmung

Zusammenfassung

Visuelle Wahrnehmung verbindet semantisches Verständnis auf hoher Ebene mit Wahrnehmung auf Pixelebene, jedoch gehen die meisten bestehenden Ansätze davon aus, dass die entscheidende Evidenz zur Identifizierung eines Ziels bereits im Bild oder im eingefrorenen Modellwissen enthalten ist. Wir untersuchen einen realistischeren, aber schwierigeren Open-World-Fall, bei dem ein sichtbares Objekt zunächst anhand externer Fakten, aktueller Ereignisse, Long-Tail-Entitäten oder Multi-Hop-Beziehungen aufgelöst werden muss, bevor es lokalisiert werden kann. Wir formalisieren diese Herausforderung als „Perception Deep Research“ und führen WebEye ein, einen objektverankerten Benchmark mit überprüfbarer Evidenz, wissensintensiven Abfragen, präzisen Box-/Maskenannotationen sowie drei Aufgabenansichten: suchbasiertes Grounding, suchbasierte Segmentierung und suchbasiertes VQA. WebEye enthält 120 Bilder, 473 annotierte Objektinstanzen, 645 eindeutige QA-Paare und 1.927 Aufgabenbeispiele. Darüber hinaus schlagen wir Pixel-Searcher vor, einen agentischen Such-zu-Pixel-Workflow, der verborgene Zielidentitäten auflöst und diese an Boxen, Masken oder fundierte Antworten bindet. Experimente zeigen, dass Pixel-Searcher in allen drei Aufgabenansichten die stärkste Open-Source-Leistung erzielt, während Fehler hauptsächlich bei der Evidenzbeschaffung, Identitätsauflösung und visuellen Instanzbindung auftreten.

English

Visual perception connects high-level semantic understanding to pixel-level perception, but most existing settings assume that the decisive evidence for identifying a target is already in the image or frozen model knowledge. We study a more practical yet harder open-world case where a visible object must first be resolved from external facts, recent events, long-tail entities, or multi-hop relations before it can be localized. We formalize this challenge as Perception Deep Research and introduce WebEye, an object-anchored benchmark with verifiable evidence, knowledge-intensive queries, precise box/mask annotations, and three task views: Search-based Grounding, Search-based Segmentation, and Search-based VQA. WebEyes contains 120 images, 473 annotated object instances, 645 unique QA pairs, and 1,927 task samples. We further propose Pixel-Searcher, an agentic search-to-pixel workflow that resolves hidden target identities and binds them to boxes, masks, or grounded answers. Experiments show that Pixel-Searcher achieves the strongest open-source performance across all three task views, while failures mainly arise from evidence acquisition, identity resolution, and visual instance binding.

Vom Web zu Pixeln: Die Integration agentischer Suche in die visuelle Wahrnehmung

From Web to Pixels: Bringing Agentic Search into Visual Perception

Zusammenfassung

Support