Подсчет любых объектов

Аннотация

Подсчет объектов остается фрагментированным по предметно-ориентированным наборам данных и постановкам задач, несмотря на стремительный прогресс в универсальных моделях зрения. Существующие модели подсчета часто заточены под такие сценарии, как толпы, транспортные средства, клетки, сельскохозяйственные культуры или объекты дистанционного зондирования, и поэтому с трудом обобщаются на разные категории, визуальные домены, масштабы объектов и распределения плотности. В данной работе мы исследуем подсчет объектов с текстовым управлением в междоменном контексте, где модель принимает на вход изображение и запрос на естественном языке и возвращает привязанный к экземплярам набор целевых точек, мощность которого дает количество. Такая формулировка объединяет подсчет, обусловленный категорией, с интерпретируемой пространственной локализацией. Для поддержки этой постановки мы создали CLOC — междоменный крупномасштабный набор данных для подсчета объектов, который реорганизует разнородные публичные источники данных в единый бенчмарк. CLOC охватывает шесть визуальных доменов: общая сцена, дистанционное зондирование, гистопатология, клеточная микроскопия, сельское хозяйство и микробиология, и содержит около 220 тысяч изображений, 619 категорий и 15 миллионов экземпляров объектов. На основе CLOC мы предлагаем Count Anything — универсальную модель для подсчета объектов с текстовым управлением. В отличие от методов, основанных на картах плотности, которые доминируют среди моделей подсчета, Count Anything использует дискретные точки экземпляров и выполняет перечисление экземпляров с двойной гранулярностью. Разреженный счетчик на уровне областей предоставляет объектные якоря для крупных и разреженных целей, тогда как плотный счетчик на уровне пикселей обрабатывает мелкие, скученные и слабо ограниченные цели посредством предсказания плотных точек. Стратегия обучения с фокусом на точки позволяет обучаться на гетерогенных аннотациях, а комплементарное слияние подсчетов объединяет оба счетчика без параметров. Обширные эксперименты показывают, что Count Anything достигает высокой точности и многодоменного обобщения, превосходя существующие методы подсчета в открытом мире. Код доступен по адресу: https://github.com/Mengqi-Lei/count-anything.

English

Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: https://github.com/Mengqi-Lei/count-anything.