ChatPaper.aiChatPaper

gen2seg: Генеративные модели обеспечивают обобщаемую сегментацию экземпляров

gen2seg: Generative Models Enable Generalizable Instance Segmentation

May 21, 2025
Авторы: Om Khangaonkar, Hamed Pirsiavash
cs.AI

Аннотация

Предварительно обучаясь синтезировать связные изображения из искаженных входных данных, генеративные модели по своей природе учатся понимать границы объектов и композицию сцен. Как мы можем перепрофилировать эти генеративные представления для задач общего восприятия и организации? Мы дообучаем Stable Diffusion и MAE (кодировщик+декодировщик) для категориально-независимой сегментации экземпляров, используя нашу функцию потерь для раскрашивания экземпляров исключительно на узком наборе типов объектов (предметы интерьера и автомобили). Удивительно, но наши модели демонстрируют сильную способность к обобщению "с нуля", точно сегментируя объекты типов и стилей, не встречавшихся при дообучении (а во многих случаях и при предварительном обучении MAE на ImageNet-1K). Наши лучшие модели близко подходят к сильно контролируемой модели SAM при оценке на неизвестных типах и стилях объектов и превосходят её при сегментации тонких структур и неоднозначных границ. В отличие от этого, существующие архитектуры для сегментации по запросу или модели, предварительно обученные дискриминативно, не способны к такому обобщению. Это позволяет предположить, что генеративные модели изучают внутренний механизм группировки, который переносится между категориями и доменами, даже без предварительного обучения на интернет-масштабных данных. Код, предварительно обученные модели и демонстрации доступны на нашем сайте.
English
By pretraining to synthesize coherent images from perturbed inputs, generative models inherently learn to understand object boundaries and scene compositions. How can we repurpose these generative representations for general-purpose perceptual organization? We finetune Stable Diffusion and MAE (encoder+decoder) for category-agnostic instance segmentation using our instance coloring loss exclusively on a narrow set of object types (indoor furnishings and cars). Surprisingly, our models exhibit strong zero-shot generalization, accurately segmenting objects of types and styles unseen in finetuning (and in many cases, MAE's ImageNet-1K pretraining too). Our best-performing models closely approach the heavily supervised SAM when evaluated on unseen object types and styles, and outperform it when segmenting fine structures and ambiguous boundaries. In contrast, existing promptable segmentation architectures or discriminatively pretrained models fail to generalize. This suggests that generative models learn an inherent grouping mechanism that transfers across categories and domains, even without internet-scale pretraining. Code, pretrained models, and demos are available on our website.

Summary

AI-Generated Summary

PDF12May 23, 2025