Verwijzend naar een Persoon
Referring to Any Person
March 11, 2025
Auteurs: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI
Samenvatting
Mensen zijn ongetwijfeld de belangrijkste deelnemers in computervisie, en het vermogen om een individu te detecteren op basis van een natuurlijke taal beschrijving, een taak die we definiëren als verwijzen naar een persoon, heeft aanzienlijke praktische waarde. We constateren echter dat bestaande modellen over het algemeen niet in staat zijn om real-world bruikbaarheid te bereiken, en huidige benchmarks worden beperkt door hun focus op één-op-één verwijzingen, wat de vooruitgang op dit gebied belemmert. In dit werk benaderen we deze taak vanuit drie kritische perspectieven: taakdefinitie, datasetontwerp en modelarchitectuur. We identificeren eerst vijf aspecten van verwijzingen en drie onderscheidende kenmerken van deze taak. Vervolgens introduceren we HumanRef, een nieuwe dataset die ontworpen is om deze uitdagingen aan te pakken en real-world toepassingen beter te weerspiegelen. Vanuit een modelontwerpperspectief integreren we een multimodaal groot taalmodel met een objectdetectiekader, waardoor we een robuust verwijsmodel construeren genaamd RexSeek. Experimentele resultaten laten zien dat state-of-the-art modellen, die goed presteren op veelgebruikte benchmarks zoals RefCOCO/+/g, moeite hebben met HumanRef vanwege hun onvermogen om meerdere individuen te detecteren. In tegenstelling daarmee blinkt RexSeek niet alleen uit in het verwijzen naar mensen, maar generaliseert het ook effectief naar het verwijzen naar gewone objecten, waardoor het breed toepasbaar is in verschillende perceptietaken. Code is beschikbaar op https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision,
and the ability to detect any individual given a natural language description,
a task we define as referring to any person, holds substantial practical value.
However, we find that existing models generally fail to achieve real-world
usability, and current benchmarks are limited by their focus on one-to-one
referring, that hinder progress in this area. In this work, we revisit this
task from three critical perspectives: task definition, dataset design, and
model architecture. We first identify five aspects of referable entities and
three distinctive characteristics of this task. Next, we introduce HumanRef, a
novel dataset designed to tackle these challenges and better reflect real-world
applications. From a model design perspective, we integrate a multimodal large
language model with an object detection framework, constructing a robust
referring model named RexSeek. Experimental results reveal that
state-of-the-art models, which perform well on commonly used benchmarks like
RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple
individuals. In contrast, RexSeek not only excels in human referring but also
generalizes effectively to common object referring, making it broadly
applicable across various perception tasks. Code is available at
https://github.com/IDEA-Research/RexSeekSummary
AI-Generated Summary