gen2seg: Modelos Generativos Habilitam Segmentação de Instâncias Generalizável
gen2seg: Generative Models Enable Generalizable Instance Segmentation
May 21, 2025
Autores: Om Khangaonkar, Hamed Pirsiavash
cs.AI
Resumo
Ao realizar o pré-treinamento para sintetizar imagens coerentes a partir de entradas perturbadas, os modelos generativos aprendem inerentemente a compreender os limites dos objetos e as composições das cenas. Como podemos reutilizar essas representações generativas para a organização perceptual de propósito geral? Ajustamos o Stable Diffusion e o MAE (codificador+decodificador) para a segmentação de instâncias independente de categoria, utilizando exclusivamente nossa função de perda de coloração de instâncias em um conjunto restrito de tipos de objetos (mobiliário interno e carros). Surpreendentemente, nossos modelos exibem uma forte generalização zero-shot, segmentando com precisão objetos de tipos e estilos não vistos durante o ajuste fino (e, em muitos casos, também não vistos no pré-treinamento do MAE no ImageNet-1K). Nossos modelos de melhor desempenho se aproximam bastante do SAM, que é altamente supervisionado, quando avaliados em tipos e estilos de objetos não vistos, e o superam ao segmentar estruturas finas e limites ambíguos. Em contraste, arquiteturas de segmentação acionáveis por prompt ou modelos pré-treinados de forma discriminativa falham em generalizar. Isso sugere que os modelos generativos aprendem um mecanismo de agrupamento inerente que se transfere entre categorias e domínios, mesmo sem um pré-treinamento em escala da internet. Código, modelos pré-treinados e demonstrações estão disponíveis em nosso site.
English
By pretraining to synthesize coherent images from perturbed inputs,
generative models inherently learn to understand object boundaries and scene
compositions. How can we repurpose these generative representations for
general-purpose perceptual organization? We finetune Stable Diffusion and MAE
(encoder+decoder) for category-agnostic instance segmentation using our
instance coloring loss exclusively on a narrow set of object types (indoor
furnishings and cars). Surprisingly, our models exhibit strong zero-shot
generalization, accurately segmenting objects of types and styles unseen in
finetuning (and in many cases, MAE's ImageNet-1K pretraining too). Our
best-performing models closely approach the heavily supervised SAM when
evaluated on unseen object types and styles, and outperform it when segmenting
fine structures and ambiguous boundaries. In contrast, existing promptable
segmentation architectures or discriminatively pretrained models fail to
generalize. This suggests that generative models learn an inherent grouping
mechanism that transfers across categories and domains, even without
internet-scale pretraining. Code, pretrained models, and demos are available on
our website.