Ein Klick pro Zelltyp genügt: Trainingsfreie Gruppeninteraktion für die Zellinstanzsegmentierung

Zusammenfassung

Zellinstanzsegmentierungsmodelle, die auf zellspezifischen Datensätzen trainiert wurden, erleiden bei Zelltypen außerhalb der Verteilung einen erheblichen Leistungsabfall, während interaktive Foundation-Modelle dieses Problem durch instanzbezogenes Prompting überwinden – allerdings zu Kosten, die für histopathologische Aufnahmen mit Hunderten bis Tausenden dicht gepackter Instanzen unerschwinglich sind. Wir führen das Gruppen-Prompting ein, ein neues Paradigma, das die interaktive Segmentierung von instanzbezogenem O(N) auf typbezogenes O(T) verschiebt, wobei ein einziger Klick pro Zelltyp ausreicht, um alle Instanzen dieses Typs zu segmentieren. Unsere entscheidende Beobachtung ist, dass der eingefrorene Bildencoder des Segment Anything Model (SAM) bereits vor der Eingabe eines Prompts gleichartige Zellen in seinem Merkmalsraum clustert. Diese Eigenschaft nutzend schlagen wir Chain-of-Prompts (CoP) vor, ein trainingsfreies Framework, das einen einzelnen Benutzerklick rekursiv erweitert, indem es (1) zuverlässige Positionen desselben Typs durch nichtparametrische Filterung mehrskaliger Encoder-Merkmale identifiziert und (2) den räumlich entferntesten zuverlässigen Punkt als nächsten Prompt auswählt, um die Abdeckung zu maximieren. Auf drei mit Zelltypen annotierten Benchmarks behält CoP mit einem Klick pro Typ über 90 % der instanzbezogenen Leistung und übertrifft vollständig überwachte Methoden ohne zusätzliches Training. Auf vier morphologisch homogenen Benchmarks behält ein einziger Klick über 99 %. Projektseite: https://shjo-april.github.io/Chain-of-Prompts/

English

Cell instance segmentation models trained on cell-specific datasets suffer severe performance drops on out-of-distribution cell types, while interactive foundation models overcome this through per-instance prompting at a cost that is prohibitively expensive for histopathology images containing hundreds to thousands of densely packed instances. We introduce Group Prompting, a new paradigm that shifts interactive segmentation from per-instance O(N) to per-type O(T), where a single click per cell type suffices to segment all instances of that type. Our key observation is that the frozen image encoder of the Segment Anything Model (SAM) already clusters same-type cells in its feature space before any prompt is given. Exploiting this property, we propose Chain-of-Prompts (CoP), a training-free framework that recursively expands a single user click by (1) identifying reliable same-type locations through non-parametric gating of multi-scale encoder features, and (2) selecting the most spatially distant reliable point as the next prompt to maximize coverage. On three cell-type-annotated benchmarks, CoP with one click per type retains over 90% of per-instance performance and surpasses fully-supervised methods without any additional training. On four morphologically homogeneous benchmarks, a single click retains over 99%. Project Page: https://shjo-april.github.io/Chain-of-Prompts/