ChatPaper.aiChatPaper

웹에서 픽셀로: 시각 지각에 에이전틱 검색 도입

From Web to Pixels: Bringing Agentic Search into Visual Perception

May 12, 2026
저자: Bokang Yang, Xinyi Sun, Kaituo Feng, Xingping Dong, Dongming Wu, Xiangyu Yue
cs.AI

초록

시각 인식은 고수준의 의미 이해와 픽셀 수준의 인식을 연결하지만, 대부분의 기존 설정은 대상을 식별하기 위한 결정적 증거가 이미 이미지나 고정된 모델 지식에 존재한다고 가정한다. 우리는 가시적인 객체가 국소화되기 전에 먼저 외부 사실, 최근 사건, 긴 꼬리(long-tail) 엔터티 또는 다중 홉(multi-hop) 관계로부터 식별되어야 하는 보다 실용적이면서도 더 어려운 개방형 세계 사례를 연구한다. 우리는 이 도전 과제를 지각 심층 연구(Perception Deep Research)로 공식화하고, 검증 가능한 증거, 지식 집약적 질의, 정밀한 박스/마스크 주석, 그리고 세 가지 작업 관점(검색 기반 접지, 검색 기반 분할, 검색 기반 VQA)을 갖춘 객체 기반 벤치마크인 WebEye를 소개한다. WebEyes는 120개의 이미지, 473개의 주석이 달린 객체 인스턴스, 645개의 고유 QA 쌍, 1,927개의 작업 샘플을 포함한다. 또한 우리는 숨겨진 대상 정체성을 해결하고 이를 박스, 마스크 또는 접지된 답변에 바인딩하는 에이전틱 검색-투-픽셀(agentic search-to-pixel) 워크플로우인 Pixel-Searcher를 제안한다. 실험 결과, Pixel-Searcher는 세 가지 작업 관점 모두에서 가장 강력한 오픈소스 성능을 달성하는 반면, 실패는 주로 증거 획득, 정체성 해결 및 시각적 인스턴스 바인딩에서 발생함을 보여준다.
English
Visual perception connects high-level semantic understanding to pixel-level perception, but most existing settings assume that the decisive evidence for identifying a target is already in the image or frozen model knowledge. We study a more practical yet harder open-world case where a visible object must first be resolved from external facts, recent events, long-tail entities, or multi-hop relations before it can be localized. We formalize this challenge as Perception Deep Research and introduce WebEye, an object-anchored benchmark with verifiable evidence, knowledge-intensive queries, precise box/mask annotations, and three task views: Search-based Grounding, Search-based Segmentation, and Search-based VQA. WebEyes contains 120 images, 473 annotated object instances, 645 unique QA pairs, and 1,927 task samples. We further propose Pixel-Searcher, an agentic search-to-pixel workflow that resolves hidden target identities and binds them to boxes, masks, or grounded answers. Experiments show that Pixel-Searcher achieves the strongest open-source performance across all three task views, while failures mainly arise from evidence acquisition, identity resolution, and visual instance binding.
PDF101May 14, 2026