Conte Qualquer Coisa

Resumo

A contagem de objetos permanece fragmentada em conjuntos de dados e formulações de tarefas específicas de domínio, apesar do rápido progresso em modelos de visão generalistas. Os modelos de contagem existentes são frequentemente adaptados a cenários como multidões, veículos, células, plantações ou objetos de sensoriamento remoto e, portanto, têm dificuldade em generalizar entre categorias, domínios visuais, escalas de objetos e distribuições de densidade. Neste artigo, estudamos a contagem de objetos guiada por texto entre domínios, onde um modelo recebe uma imagem e uma consulta em linguagem natural como entrada e retorna um conjunto de pontos-alvo fundamentados em instâncias, cuja cardinalidade fornece a contagem. Esta formulação unifica a contagem condicionada por categoria com a localização espacial interpretável. Para apoiar este cenário, construímos o CLOC, um conjunto de dados de contagem de objetos em grande escala entre domínios que reorganiza diversas fontes de dados públicas em um benchmark unificado. O CLOC abrange seis domínios visuais: Cena Geral, Sensoriamento Remoto, Histopatologia, Microscopia Celular, Agricultura e Microbiologia, com cerca de 220 mil imagens, 619 categorias e 15 milhões de instâncias de objetos. Com base no CLOC, propomos o Count Anything, um modelo generalista para contagem de objetos guiada por texto. Diferentemente dos métodos baseados em mapas de densidade, que dominam os modelos de contagem, o Count Anything adota pontos de instância discretos e realiza enumeração de instâncias em dupla granularidade. Um Contador Disperso em Nível de Região fornece âncoras em nível de objeto para alvos grandes e esparsos, enquanto um Contador Denso em Nível de Pixel lida com alvos pequenos, aglomerados e com limites fracos por meio da predição densa de pontos. Uma estratégia de supervisão centrada em pontos permite o aprendizado a partir de anotações heterogêneas, e a Fusão de Contagem Complementar combina ambos os contadores de forma livre de parâmetros. Experimentos extensos mostram que o Count Anything alcança alta precisão e generalização em múltiplos domínios, superando os métodos existentes de contagem em mundo aberto. O código está disponível em: https://github.com/Mengqi-Lei/count-anything.

English

Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: https://github.com/Mengqi-Lei/count-anything.