Compter n'importe quoi

Résumé

Le comptage d’objets reste fragmenté entre des ensembles de données spécifiques à un domaine et des formulations de tâches distinctes, malgré les progrès rapides des modèles de vision généralistes. Les modèles de comptage existants sont souvent adaptés à des scénarios tels que les foules, les véhicules, les cellules, les cultures ou les objets de télédétection, et peinent donc à généraliser entre catégories, domaines visuels, échelles d’objets et distributions de densité. Dans cet article, nous étudions le comptage d’objets guidé par le texte à travers les domaines, où un modèle prend en entrée une image et une requête en langage naturel et retourne un ensemble de points cibles ancrés sur les instances dont la cardinalité donne le nombre. Cette formulation unifie le comptage conditionné par catégorie avec une localisation spatiale interprétable. Pour soutenir ce cadre, nous construisons CLOC, un ensemble de données de comptage d’objets à grande échelle inter-domaines qui réorganise diverses sources de données publiques en un banc d’essai unifié. CLOC couvre six domaines visuels : Scène Générale, Télédétection, Histopathologie, Microscopie Cellulaire, Agriculture et Microbiologie, avec environ 220 000 images, 619 catégories et 15 millions d’instances d’objets. À partir de CLOC, nous proposons Count Anything, un modèle généraliste pour le comptage d’objets guidé par le texte. Contrairement aux méthodes basées sur les cartes de densité, qui dominent les modèles de comptage, Count Anything adopte des points d’instance discrets et effectue une énumération d’instances à double granularité. Un Compteur Parcimonieux au niveau Régional fournit des ancres au niveau objet pour les cibles grandes et peu denses, tandis qu’un Compteur Dense au niveau Pixel traite les cibles petites, denses et faiblement délimitées via une prédiction de points denses. Une stratégie de supervision centrée sur les points permet l’apprentissage à partir d’annotations hétérogènes, et une Fusion de Comptes Complémentaires combine les deux compteurs de manière sans paramètre. Des expériences approfondies montrent que Count Anything atteint une grande précision et une généralisation multi-domaine, surpassant les méthodes de comptage en monde ouvert existantes. Le code est disponible à l’adresse : https://github.com/Mengqi-Lei/count-anything.

English

Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: https://github.com/Mengqi-Lei/count-anything.