Refiriéndose a Cualquier Persona
Referring to Any Person
March 11, 2025
Autores: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI
Resumen
Los seres humanos son, sin duda, los participantes más importantes en la visión por computadora, y la capacidad de detectar a cualquier individuo dada una descripción en lenguaje natural, una tarea que definimos como referirse a cualquier persona, tiene un valor práctico sustancial. Sin embargo, observamos que los modelos existentes generalmente no logran alcanzar una usabilidad en el mundo real, y los puntos de referencia actuales están limitados por su enfoque en referencias uno a uno, lo que obstaculiza el progreso en esta área. En este trabajo, revisitamos esta tarea desde tres perspectivas críticas: definición de la tarea, diseño del conjunto de datos y arquitectura del modelo. Primero, identificamos cinco aspectos de las entidades referenciables y tres características distintivas de esta tarea. A continuación, presentamos HumanRef, un nuevo conjunto de datos diseñado para abordar estos desafíos y reflejar mejor las aplicaciones del mundo real. Desde una perspectiva de diseño de modelos, integramos un modelo de lenguaje multimodal con un marco de detección de objetos, construyendo un modelo robusto de referencia llamado RexSeek. Los resultados experimentales revelan que los modelos de última generación, que funcionan bien en puntos de referencia comúnmente utilizados como RefCOCO/+/g, tienen dificultades con HumanRef debido a su incapacidad para detectar múltiples individuos. En contraste, RexSeek no solo sobresale en la referencia humana, sino que también generaliza eficazmente a la referencia de objetos comunes, lo que lo hace ampliamente aplicable en diversas tareas de percepción. El código está disponible en https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision,
and the ability to detect any individual given a natural language description,
a task we define as referring to any person, holds substantial practical value.
However, we find that existing models generally fail to achieve real-world
usability, and current benchmarks are limited by their focus on one-to-one
referring, that hinder progress in this area. In this work, we revisit this
task from three critical perspectives: task definition, dataset design, and
model architecture. We first identify five aspects of referable entities and
three distinctive characteristics of this task. Next, we introduce HumanRef, a
novel dataset designed to tackle these challenges and better reflect real-world
applications. From a model design perspective, we integrate a multimodal large
language model with an object detection framework, constructing a robust
referring model named RexSeek. Experimental results reveal that
state-of-the-art models, which perform well on commonly used benchmarks like
RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple
individuals. In contrast, RexSeek not only excels in human referring but also
generalizes effectively to common object referring, making it broadly
applicable across various perception tasks. Code is available at
https://github.com/IDEA-Research/RexSeekSummary
AI-Generated Summary