Riferendosi a Qualsiasi Persona
Referring to Any Person
March 11, 2025
Autori: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI
Abstract
Gli esseri umani sono senza dubbio i partecipanti più importanti nella visione artificiale, e la capacità di rilevare qualsiasi individuo data una descrizione in linguaggio naturale, un compito che definiamo come riferirsi a qualsiasi persona, ha un valore pratico sostanziale. Tuttavia, scopriamo che i modelli esistenti generalmente non riescono a raggiungere una reale usabilità nel mondo reale, e i benchmark attuali sono limitati dal loro focus sul riferimento uno-a-uno, che ostacola i progressi in questo settore. In questo lavoro, riprendiamo in esame questo compito da tre prospettive critiche: definizione del compito, progettazione del dataset e architettura del modello. Per prima cosa, identifichiamo cinque aspetti delle entità riferibili e tre caratteristiche distintive di questo compito. Successivamente, introduciamo HumanRef, un nuovo dataset progettato per affrontare queste sfide e riflettere meglio le applicazioni del mondo reale. Dal punto di vista della progettazione del modello, integriamo un modello linguistico multimodale di grandi dimensioni con un framework di rilevamento di oggetti, costruendo un robusto modello di riferimento denominato RexSeek. I risultati sperimentali rivelano che i modelli all'avanguardia, che performano bene su benchmark comunemente utilizzati come RefCOCO/+/g, hanno difficoltà con HumanRef a causa della loro incapacità di rilevare più individui. Al contrario, RexSeek non solo eccelle nel riferimento umano, ma si generalizza efficacemente anche al riferimento di oggetti comuni, rendendolo ampiamente applicabile a varie attività di percezione. Il codice è disponibile all'indirizzo https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision,
and the ability to detect any individual given a natural language description,
a task we define as referring to any person, holds substantial practical value.
However, we find that existing models generally fail to achieve real-world
usability, and current benchmarks are limited by their focus on one-to-one
referring, that hinder progress in this area. In this work, we revisit this
task from three critical perspectives: task definition, dataset design, and
model architecture. We first identify five aspects of referable entities and
three distinctive characteristics of this task. Next, we introduce HumanRef, a
novel dataset designed to tackle these challenges and better reflect real-world
applications. From a model design perspective, we integrate a multimodal large
language model with an object detection framework, constructing a robust
referring model named RexSeek. Experimental results reveal that
state-of-the-art models, which perform well on commonly used benchmarks like
RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple
individuals. In contrast, RexSeek not only excels in human referring but also
generalizes effectively to common object referring, making it broadly
applicable across various perception tasks. Code is available at
https://github.com/IDEA-Research/RexSeek