Contar cualquier cosa

Resumen

El conteo de objetos sigue fragmentado en conjuntos de datos y formulaciones de tareas específicas de dominio, a pesar del rápido progreso en los modelos de visión generalistas. Los modelos de conteo existentes suelen diseñarse a medida para escenarios como multitudes, vehículos, células, cultivos u objetos de teledetección, y por tanto tienen dificultades para generalizar entre categorías, dominios visuales, escalas de objetos y distribuciones de densidad. En este trabajo, estudiamos el conteo de objetos guiado por texto entre dominios, donde un modelo toma una imagen y una consulta en lenguaje natural como entrada y devuelve un conjunto fundamentado en instancias de puntos objetivo cuya cardinalidad proporciona el conteo. Esta formulación unifica el conteo condicionado por categoría con una localización espacial interpretable. Para respaldar este enfoque, construimos CLOC, un conjunto de datos de conteo de objetos a gran escala y entre dominios que reorganiza diversas fuentes de datos públicas en un punto de referencia unificado. CLOC abarca seis dominios visuales: Escenas Generales, Teledetección, Histopatología, Microscopía Celular, Agricultura y Microbiología, con aproximadamente 220.000 imágenes, 619 categorías y 15 millones de instancias de objetos. Basándonos en CLOC, proponemos Count Anything, un modelo generalista para el conteo de objetos guiado por texto. A diferencia de los métodos basados en mapas de densidad, que dominan los modelos de conteo, Count Anything adopta puntos de instancia discretos y realiza una enumeración de instancias de doble granularidad. Un Contador Disperso a Nivel de Región proporciona anclajes a nivel de objeto para objetivos grandes y dispersos, mientras que un Contador Denso a Nivel de Píxel maneja objetivos pequeños, concurridos y débilmente delimitados mediante predicción densa de puntos. Una estrategia de supervisión centrada en puntos permite aprender de anotaciones heterogéneas, y la Fusión de Conteo Complementario combina ambos contadores de forma libre de parámetros. Experimentos exhaustivos muestran que Count Anything logra una alta precisión y generalización multi-dominio, superando a los métodos de conteo de mundo abierto existentes. El código está disponible en: https://github.com/Mengqi-Lei/count-anything.

English

Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: https://github.com/Mengqi-Lei/count-anything.