Упоминание любого лица
Referring to Any Person
March 11, 2025
Авторы: Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
cs.AI
Аннотация
Люди, несомненно, являются наиболее важными участниками в области компьютерного зрения, и способность обнаруживать любого человека по его естественному языковому описанию, задачу, которую мы определяем как ссылку на любого человека, имеет значительную практическую ценность. Однако мы обнаруживаем, что существующие модели, как правило, не достигают реальной применимости, а текущие эталонные тесты ограничены их ориентацией на одно-к-одному ссылке, что препятствует прогрессу в этой области. В данной работе мы пересматриваем эту задачу с трех ключевых перспектив: определение задачи, проектирование набора данных и архитектура модели. Сначала мы выделяем пять аспектов ссылочных сущностей и три отличительные характеристики этой задачи. Затем мы представляем HumanRef, новый набор данных, разработанный для решения этих проблем и более точного отражения реальных приложений. С точки зрения проектирования модели, мы интегрируем мультимодальную большую языковую модель с фреймворком для обнаружения объектов, создавая надежную модель для ссылок под названием RexSeek. Результаты экспериментов показывают, что современные модели, которые хорошо справляются с общепринятыми эталонными тестами, такими как RefCOCO/+/g, испытывают трудности с HumanRef из-за их неспособности обнаруживать нескольких людей. В отличие от них, RexSeek не только превосходно справляется с задачей ссылки на людей, но и эффективно обобщает для ссылки на обычные объекты, что делает его широко применимым для различных задач восприятия. Код доступен по адресу https://github.com/IDEA-Research/RexSeek.
English
Humans are undoubtedly the most important participants in computer vision,
and the ability to detect any individual given a natural language description,
a task we define as referring to any person, holds substantial practical value.
However, we find that existing models generally fail to achieve real-world
usability, and current benchmarks are limited by their focus on one-to-one
referring, that hinder progress in this area. In this work, we revisit this
task from three critical perspectives: task definition, dataset design, and
model architecture. We first identify five aspects of referable entities and
three distinctive characteristics of this task. Next, we introduce HumanRef, a
novel dataset designed to tackle these challenges and better reflect real-world
applications. From a model design perspective, we integrate a multimodal large
language model with an object detection framework, constructing a robust
referring model named RexSeek. Experimental results reveal that
state-of-the-art models, which perform well on commonly used benchmarks like
RefCOCO/+/g, struggle with HumanRef due to their inability to detect multiple
individuals. In contrast, RexSeek not only excels in human referring but also
generalizes effectively to common object referring, making it broadly
applicable across various perception tasks. Code is available at
https://github.com/IDEA-Research/RexSeekSummary
AI-Generated Summary