ChatPaper.aiChatPaper

任意の人物を参照する

Referring to Any Person

March 11, 2025
著者: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI

要旨

コンピュータビジョンにおいて、人間は間違いなく最も重要な対象であり、自然言語の記述に基づいて任意の個人を検出する能力、すなわち「人物参照」タスクは、実用的な価値が極めて高い。しかし、既存のモデルは実世界での使用に耐える性能を達成できておらず、現在のベンチマークも一対一の参照に焦点を当てているため、この分野の進展が妨げられている。本研究では、このタスクを「タスク定義」「データセット設計」「モデルアーキテクチャ」という3つの重要な観点から再検討する。まず、参照可能なエンティティの5つの側面と、このタスクの3つの特徴を特定する。次に、これらの課題に対処し、実世界のアプリケーションをよりよく反映するために設計された新しいデータセット「HumanRef」を紹介する。モデル設計の観点では、マルチモーダル大規模言語モデルと物体検出フレームワークを統合し、堅牢な参照モデル「RexSeek」を構築する。実験結果から、RefCOCO/+/gなどの一般的なベンチマークで良好な性能を示す最先端のモデルは、複数の個人を検出できないためHumanRefでは苦戦することが明らかになった。一方、RexSeekは人物参照において優れた性能を発揮するだけでなく、一般的な物体参照にも効果的に汎化し、さまざまな知覚タスクに広く適用可能であることが示された。コードはhttps://github.com/IDEA-Research/RexSeekで公開されている。
English
Humans are undoubtedly the most important participants in computer vision, and the ability to detect any individual given a natural language description, a task we define as referring to any person, holds substantial practical value. However, we find that existing models generally fail to achieve real-world usability, and current benchmarks are limited by their focus on one-to-one referring, that hinder progress in this area. In this work, we revisit this task from three critical perspectives: task definition, dataset design, and model architecture. We first identify five aspects of referable entities and three distinctive characteristics of this task. Next, we introduce HumanRef, a novel dataset designed to tackle these challenges and better reflect real-world applications. From a model design perspective, we integrate a multimodal large language model with an object detection framework, constructing a robust referring model named RexSeek. Experimental results reveal that state-of-the-art models, which perform well on commonly used benchmarks like RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple individuals. In contrast, RexSeek not only excels in human referring but also generalizes effectively to common object referring, making it broadly applicable across various perception tasks. Code is available at https://github.com/IDEA-Research/RexSeek

Summary

AI-Generated Summary

PDF72March 12, 2025