Alles zählen

Zusammenfassung

Objektzählung bleibt fragmentiert über domänenspezifische Datensätze und Aufgabenformulierungen, trotz rascher Fortschritte bei generalistischen Sehmodellen. Bestehende Zählmodelle sind oft auf Szenarien wie Menschenmengen, Fahrzeuge, Zellen, Nutzpflanzen oder Fernerkundungsobjekte zugeschnitten und haben daher Schwierigkeiten, über Kategorien, visuelle Domänen, Objektgrößen und Dichteverteilungen zu generalisieren. In dieser Arbeit untersuchen wir textgesteuerte Objektzählung über Domänen hinweg, bei der ein Modell ein Bild und eine natürlichsprachliche Abfrage als Eingabe nimmt und eine instanzbezogene Menge von Zielpunkten zurückgibt, deren Kardinalität die Anzahl ergibt. Diese Formulierung vereinheitlicht kategoriegesteuerte Zählung mit interpretierbarer räumlicher Lokalisierung. Zur Unterstützung dieses Settings konstruieren wir CLOC, einen domänenübergreifenden großskaligen Objektzähldatensatz, der verschiedene öffentliche Datenquellen in eine einheitliche Benchmark reorganisiert. CLOC umfasst sechs visuelle Domänen: Allgemeine Szene, Fernerkundung, Histopathologie, Zellmikroskopie, Landwirtschaft und Mikrobiologie, mit etwa 220.000 Bildern, 619 Kategorien und 15 Millionen Objektinstanzen. Basierend auf CLOC schlagen wir Count Anything vor, ein generalistisches Modell für textgesteuerte Objektzählung. Im Gegensatz zu Dichtekarten-basierten Methoden, die Zählmodelle dominieren, verwendet Count Anything diskrete Instanzpunkte und führt eine dual-granulare Instanzaufzählung durch. Ein Region-level Sparse Counter liefert objektbezogene Anker für große und spärliche Ziele, während ein Pixel-level Dense Counter kleine, dicht gedrängte und schwach begrenzte Ziele mittels dichter Punktvorhersage behandelt. Eine punktzentrierte Überwachungsstrategie ermöglicht Lernen aus heterogenen Annotationen, und Complementary Count Fusion kombiniert beide Zähler parameterfrei. Umfangreiche Experimente zeigen, dass Count Anything eine hohe Genauigkeit und multi-domänen Generalisierung erreicht und bestehende Open-World-Zählmethoden übertrifft. Code ist verfügbar unter: https://github.com/Mengqi-Lei/count-anything.

English

Object counting remains fragmented across domain-specific datasets and task formulations, despite rapid progress in generalist vision models. Existing counting models are often tailored to scenarios such as crowds, vehicles, cells, crops, or remote-sensing objects, and thus struggle to generalize across categories, visual domains, object scales, and density distributions. In this paper, we study text-guided object counting across domains, where a model takes an image and a natural-language query as input and returns an instance-grounded set of target points whose cardinality gives the count. This formulation unifies category-conditioned counting with interpretable spatial localization. To support this setting, we construct CLOC, a Cross-domain Large-scale Object Counting dataset that reorganizes diverse public data sources into a unified benchmark. CLOC covers six visual domains: General Scene, Remote Sensing, Histopathology, Cellular Microscopy, Agriculture, and Microbiology, with about 220K images, 619 categories, and 15M object instances. Based on CLOC, we propose Count Anything, a generalist model for text-guided object counting. Unlike density-map-based methods, which dominate counting models, Count Anything adopts discrete instance points and performs dual-granularity instance enumeration. A Region-level Sparse Counter provides object-level anchors for large and sparse targets, while a Pixel-level Dense Counter handles small, crowded, and weakly bounded targets via dense point prediction. A point-centric supervision strategy enables learning from heterogeneous annotations, and Complementary Count Fusion combines both counters in a parameter-free manner. Extensive experiments show that Count Anything achieves strong accuracy and multi-domain generalization, outperforming existing open-world counting methods. Code is available at: https://github.com/Mengqi-Lei/count-anything.