Tel Alles

Samenvatting

Objecttelling blijft gefragmenteerd over domeinspecifieke datasets en taakformuleringen, ondanks de snelle vooruitgang in generalistische visiemodellen. Bestaande telmodellen zijn vaak toegespitst op scenario's zoals menigten, voertuigen, cellen, gewassen of objecten uit de aardobservatie, en hebben daardoor moeite om te generaliseren over categorieën, visuele domeinen, objectschalen en dichtheidsverdelingen. In dit artikel bestuderen we tekstgestuurde objecttelling over domeinen heen, waarbij een model een afbeelding en een natuurlijke-taalquery als invoer neemt en een op exemplaren gebaseerde set van doelpunten retourneert waarvan de kardinaliteit de telling geeft. Deze formulering verenigt categoriegestuurde telling met interpreteerbare ruimtelijke lokalisatie. Om deze setting te ondersteunen, hebben we CLOC geconstrueerd, een Cross-domain Large-scale Object Counting dataset die diverse openbare databronnen herorganiseert in een uniforme benchmark. CLOC bestrijkt zes visuele domeinen: Algemene Scene, Aardobservatie, Histopathologie, Cellulaire Microscopie, Landbouw en Microbiologie, met ongeveer 220K afbeeldingen, 619 categorieën en 15M objectexemplaren. Op basis van CLOC stellen we Count Anything voor, een generalistisch model voor tekstgestuurde objecttelling. In tegenstelling tot op dichtheidskaarten gebaseerde methoden, die de telmodellen domineren, hanteert Count Anything discrete instantiepunten en voert het een tweevoudige granulariteitsinstantieënmerking uit. Een Regionaal-niveau Schaarse Teller levert objectniveau-ankers voor grote en schaarse doelen, terwijl een Pixel-niveau Dichte Teller kleine, drukke en zwak begrensde doelen afhandelt via dichte puntenvoorspelling. Een puntgerichte supervisiestrategie maakt leren van heterogene annotaties mogelijk, en Complementaire Tellingsfusie combineert beide tellers op een parameter-vrije manier. Uitgebreide experimenten tonen aan dat Count Anything een hoge nauwkeurigheid en meerdomeingeneralisatie bereikt, en bestaande open-wereld telmethoden overtreft. Code is beschikbaar op: https://github.com/Mengqi-Lei/count-anything.

English

Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: https://github.com/Mengqi-Lei/count-anything.