ChatPaper.aiChatPaper

gen2seg: Generative Modelle ermöglichen generalisierbare Instanzsegmentierung

gen2seg: Generative Models Enable Generalizable Instance Segmentation

May 21, 2025
Autoren: Om Khangaonkar, Hamed Pirsiavash
cs.AI

Zusammenfassung

Durch das Vortrainieren zur Synthese kohärenter Bilder aus gestörten Eingaben lernen generative Modelle inhärent, Objektgrenzen und Szenenkompositionen zu verstehen. Wie können wir diese generativen Repräsentationen für die allgemeine Wahrnehmungsorganisation nutzbar machen? Wir feintunen Stable Diffusion und MAE (Encoder+Decoder) für kategorie-agnostische Instanzsegmentierung unter ausschließlicher Verwendung unseres Instanzfärbungsverlusts auf einer engen Auswahl von Objekttypen (Inneneinrichtung und Autos). Überraschenderweise zeigen unsere Modelle eine starke Zero-Shot-Generalisierung und segmentieren präzise Objekte von Typen und Stilen, die während des Feintunings (und in vielen Fällen auch während des ImageNet-1K-Vortrainings von MAE) nicht gesehen wurden. Unsere leistungsstärksten Modelle nähern sich dem stark überwachten SAM stark an, wenn sie auf unbekannte Objekttypen und -stile evaluiert werden, und übertreffen ihn bei der Segmentierung feiner Strukturen und ambiger Grenzen. Im Gegensatz dazu scheitern bestehende promptfähige Segmentierungsarchitekturen oder diskriminativ vortrainierte Modelle an der Generalisierung. Dies deutet darauf hin, dass generative Modelle einen inhärenten Gruppierungsmechanismus lernen, der sich über Kategorien und Domänen hinweg überträgt, selbst ohne internetweites Vortraining. Code, vortrainierte Modelle und Demos sind auf unserer Website verfügbar.
English
By pretraining to synthesize coherent images from perturbed inputs, generative models inherently learn to understand object boundaries and scene compositions. How can we repurpose these generative representations for general-purpose perceptual organization? We finetune Stable Diffusion and MAE (encoder+decoder) for category-agnostic instance segmentation using our instance coloring loss exclusively on a narrow set of object types (indoor furnishings and cars). Surprisingly, our models exhibit strong zero-shot generalization, accurately segmenting objects of types and styles unseen in finetuning (and in many cases, MAE's ImageNet-1K pretraining too). Our best-performing models closely approach the heavily supervised SAM when evaluated on unseen object types and styles, and outperform it when segmenting fine structures and ambiguous boundaries. In contrast, existing promptable segmentation architectures or discriminatively pretrained models fail to generalize. This suggests that generative models learn an inherent grouping mechanism that transfers across categories and domains, even without internet-scale pretraining. Code, pretrained models, and demos are available on our website.

Summary

AI-Generated Summary

PDF12May 23, 2025