ChatPaper.aiChatPaper

Se référant à Toute Personne

Referring to Any Person

March 11, 2025
Auteurs: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI

Résumé

Les humains sont sans aucun doute les participants les plus importants en vision par ordinateur, et la capacité à détecter un individu à partir d'une description en langage naturel, une tâche que nous définissons comme la référence à toute personne, revêt une valeur pratique considérable. Cependant, nous constatons que les modèles existants échouent généralement à atteindre une utilité réelle, et les benchmarks actuels sont limités par leur focalisation sur la référence un-à-un, ce qui entrave les progrès dans ce domaine. Dans ce travail, nous revisitons cette tâche sous trois perspectives critiques : la définition de la tâche, la conception des jeux de données et l'architecture des modèles. Nous identifions d'abord cinq aspects des entités référençables et trois caractéristiques distinctives de cette tâche. Ensuite, nous introduisons HumanRef, un nouveau jeu de données conçu pour relever ces défis et mieux refléter les applications réelles. Du point de vue de la conception des modèles, nous intégrons un modèle de langage multimodal à un cadre de détection d'objets, construisant ainsi un modèle de référence robuste nommé RexSeek. Les résultats expérimentaux révèlent que les modèles de pointe, qui performent bien sur des benchmarks couramment utilisés comme RefCOCO/+/g, peinent avec HumanRef en raison de leur incapacité à détecter plusieurs individus. En revanche, RexSeek excelle non seulement dans la référence humaine, mais se généralise également efficacement à la référence d'objets courants, le rendant largement applicable à diverses tâches de perception. Le code est disponible à l'adresse https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision, and the ability to detect any individual given a natural language description, a task we define as referring to any person, holds substantial practical value. However, we find that existing models generally fail to achieve real-world usability, and current benchmarks are limited by their focus on one-to-one referring, that hinder progress in this area. In this work, we revisit this task from three critical perspectives: task definition, dataset design, and model architecture. We first identify five aspects of referable entities and three distinctive characteristics of this task. Next, we introduce HumanRef, a novel dataset designed to tackle these challenges and better reflect real-world applications. From a model design perspective, we integrate a multimodal large language model with an object detection framework, constructing a robust referring model named RexSeek. Experimental results reveal that state-of-the-art models, which perform well on commonly used benchmarks like RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple individuals. In contrast, RexSeek not only excels in human referring but also generalizes effectively to common object referring, making it broadly applicable across various perception tasks. Code is available at https://github.com/IDEA-Research/RexSeek

Summary

AI-Generated Summary

PDF72March 12, 2025