ChatPaper.aiChatPaper

ウェブからピクセルへ:エージェント的検索を視覚知覚に導入する

From Web to Pixels: Bringing Agentic Search into Visual Perception

May 12, 2026
著者: Bokang Yang, Xinyi Sun, Kaituo Feng, Xingping Dong, Dongming Wu, Xiangyu Yue
cs.AI

要旨

視覚知覚は高レベルの意味理解とピクセルレベルの知覚を結びつけるが、既存の設定のほとんどは、対象を識別するための決定的な証拠がすでに画像内または凍結されたモデル知識に存在することを前提としている。我々は、可視オブジェクトを位置特定する前に、まず外部事実、最近の出来事、ロングテールエンティティ、またはマルチホップ関係から解決しなければならない、より実用的でありながら困難なオープンワールドのケースを研究する。この課題を知覚深層研究として形式化し、検証可能な証拠、知識集約的なクエリ、精密なボックス/マスクアノテーション、および3つのタスク視点(検索ベースのグラウンディング、検索ベースのセグメンテーション、検索ベースのVQA)を備えたオブジェクトアンカーベンチマークであるWebEyeを導入する。WebEyeは120枚の画像、473個のアノテーション付きオブジェクトインスタンス、645個のユニークなQAペア、および1,927個のタスクサンプルを含む。さらに、隠れた対象の同一性を解決し、それらをボックス、マスク、またはグラウンディングされた回答に結び付けるエージェント型検索→ピクセルワークフローであるPixel-Searcherを提案する。実験により、Pixel-Searcherは3つのタスク視点すべてにおいて最強のオープンソース性能を達成し、一方、失敗は主に証拠獲得、同一性解決、および視覚的インスタンス結合から生じることが示された。
English
Visual perception connects high-level semantic understanding to pixel-level perception, but most existing settings assume that the decisive evidence for identifying a target is already in the image or frozen model knowledge. We study a more practical yet harder open-world case where a visible object must first be resolved from external facts, recent events, long-tail entities, or multi-hop relations before it can be localized. We formalize this challenge as Perception Deep Research and introduce WebEye, an object-anchored benchmark with verifiable evidence, knowledge-intensive queries, precise box/mask annotations, and three task views: Search-based Grounding, Search-based Segmentation, and Search-based VQA. WebEyes contains 120 images, 473 annotated object instances, 645 unique QA pairs, and 1,927 task samples. We further propose Pixel-Searcher, an agentic search-to-pixel workflow that resolves hidden target identities and binds them to boxes, masks, or grounded answers. Experiments show that Pixel-Searcher achieves the strongest open-source performance across all three task views, while failures mainly arise from evidence acquisition, identity resolution, and visual instance binding.
PDF101May 14, 2026