De la Web a los Píxeles: Llevando la Búsqueda Agentiva a la Percepción Visual

Resumen

La percepción visual conecta la comprensión semántica de alto nivel con la percepción a nivel de píxel, pero la mayoría de los escenarios existentes suponen que la evidencia decisiva para identificar un objetivo ya está presente en la imagen o en el conocimiento congelado del modelo. Estudiamos un caso de mundo abierto más práctico pero más difícil, donde un objeto visible debe primero resolverse a partir de hechos externos, eventos recientes, entidades de cola larga o relaciones de múltiples saltos antes de poder ser localizado. Formalizamos este desafío como Investigación Profunda de la Percepción (Perception Deep Research) e introducimos WebEye, un conjunto de datos anclado en objetos con evidencia verificable, consultas intensivas en conocimiento, anotaciones precisas de cajas y máscaras, y tres vistas de tarea: Anclaje Basado en Búsqueda, Segmentación Basada en Búsqueda y VQA Basada en Búsqueda. WebEye contiene 120 imágenes, 473 instancias de objetos anotados, 645 pares únicos de preguntas y respuestas y 1927 muestras de tareas. Además, proponemos Pixel-Searcher, un flujo de trabajo agéntico de búsqueda a píxel que resuelve identidades ocultas de objetivos y las vincula a cajas, máscaras o respuestas fundamentadas. Los experimentos muestran que Pixel-Searcher logra el rendimiento de código abierto más sólido en las tres vistas de tarea, mientras que los fallos surgen principalmente de la adquisición de evidencia, la resolución de identidades y la vinculación de instancias visuales.

English

Visual perception connects high-level semantic understanding to pixel-level perception, but most existing settings assume that the decisive evidence for identifying a target is already in the image or frozen model knowledge. We study a more practical yet harder open-world case where a visible object must first be resolved from external facts, recent events, long-tail entities, or multi-hop relations before it can be localized. We formalize this challenge as Perception Deep Research and introduce WebEye, an object-anchored benchmark with verifiable evidence, knowledge-intensive queries, precise box/mask annotations, and three task views: Search-based Grounding, Search-based Segmentation, and Search-based VQA. WebEyes contains 120 images, 473 annotated object instances, 645 unique QA pairs, and 1,927 task samples. We further propose Pixel-Searcher, an agentic search-to-pixel workflow that resolves hidden target identities and binds them to boxes, masks, or grounded answers. Experiments show that Pixel-Searcher achieves the strongest open-source performance across all three task views, while failures mainly arise from evidence acquisition, identity resolution, and visual instance binding.

De la Web a los Píxeles: Llevando la Búsqueda Agentiva a la Percepción Visual

From Web to Pixels: Bringing Agentic Search into Visual Perception

Resumen

Support