Referindo-se a Qualquer Pessoa
Referring to Any Person
March 11, 2025
Autores: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI
Resumo
Os seres humanos são, sem dúvida, os participantes mais importantes na visão computacional, e a capacidade de detectar qualquer indivíduo com base em uma descrição em linguagem natural — uma tarefa que definimos como referência a qualquer pessoa — possui um valor prático substancial. No entanto, observamos que os modelos existentes geralmente falham em alcançar usabilidade no mundo real, e os benchmarks atuais são limitados por seu foco em referências um-para-um, o que dificulta o progresso nessa área. Neste trabalho, revisitamos essa tarefa a partir de três perspectivas críticas: definição da tarefa, design de conjunto de dados e arquitetura do modelo. Primeiro, identificamos cinco aspectos das entidades referenciáveis e três características distintas dessa tarefa. Em seguida, apresentamos o HumanRef, um novo conjunto de dados projetado para enfrentar esses desafios e refletir melhor as aplicações do mundo real. Do ponto de vista do design do modelo, integramos um modelo de linguagem multimodal de grande escala com um framework de detecção de objetos, construindo um modelo robusto de referência chamado RexSeek. Os resultados experimentais revelam que os modelos state-of-the-art, que se saem bem em benchmarks comumente usados, como RefCOCO/+/g, têm dificuldades com o HumanRef devido à sua incapacidade de detectar múltiplos indivíduos. Em contraste, o RexSeek não apenas se destaca na referência a humanos, mas também generaliza efetivamente para a referência a objetos comuns, tornando-o amplamente aplicável em diversas tarefas de percepção. O código está disponível em https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision,
and the ability to detect any individual given a natural language description,
a task we define as referring to any person, holds substantial practical value.
However, we find that existing models generally fail to achieve real-world
usability, and current benchmarks are limited by their focus on one-to-one
referring, that hinder progress in this area. In this work, we revisit this
task from three critical perspectives: task definition, dataset design, and
model architecture. We first identify five aspects of referable entities and
three distinctive characteristics of this task. Next, we introduce HumanRef, a
novel dataset designed to tackle these challenges and better reflect real-world
applications. From a model design perspective, we integrate a multimodal large
language model with an object detection framework, constructing a robust
referring model named RexSeek. Experimental results reveal that
state-of-the-art models, which perform well on commonly used benchmarks like
RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple
individuals. In contrast, RexSeek not only excels in human referring but also
generalizes effectively to common object referring, making it broadly
applicable across various perception tasks. Code is available at
https://github.com/IDEA-Research/RexSeekSummary
AI-Generated Summary