ARGenSeg: Bildsegmentierung mit autoregressivem Bildgenerierungsmodell

papers.abstract

Wir schlagen ein neuartiges Paradigma für Bildsegmentierung auf der Grundlage autoregressiver Generierung (ARGenSeg) vor, das multimodales Verständnis und pixelgenaue Wahrnehmung innerhalb eines einheitlichen Frameworks vereint. Bisherige Arbeiten, die Bildsegmentierung in multimodale große Sprachmodelle (MLLMs) integrieren, verwenden typischerweise entweder Randpunktdarstellungen oder spezielle Segmentierungsköpfe. Diese Methoden stützen sich auf diskrete Darstellungen oder semantische Prompts, die in aufgabenspezifische Decoder eingespeist werden, was die Fähigkeit des MLLMs einschränkt, fein granulierte visuelle Details zu erfassen. Um diese Herausforderungen zu bewältigen, führen wir ein Segmentierungsframework für MLLMs auf der Grundlage von Bildgenerierung ein, das natürlicherweise dichte Masken für Zielobjekte erzeugt. Wir nutzen das MLLM, um visuelle Tokens auszugeben und diese mithilfe eines universellen VQ-VAE in Bilder zu dekodieren, wodurch die Segmentierung vollständig vom pixelgenauen Verständnis des MLLMs abhängt. Um die Inferenzlatenz zu reduzieren, setzen wir eine Next-Scale-Prediction-Strategie ein, um die benötigten visuellen Tokens parallel zu generieren. Umfangreiche Experimente belegen, dass unsere Methode frühere state-of-the-art Ansätze auf mehreren Segmentierungsdatensätzen übertrifft, mit einer bemerkenswerten Steigerung der Inferenzgeschwindigkeit bei gleichzeitigem Erhalt starker Verständnisfähigkeiten.

English

We propose a novel AutoRegressive Generation-based paradigm for image Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level perception within a unified framework. Prior works integrating image segmentation into multimodal large language models (MLLMs) typically employ either boundary points representation or dedicated segmentation heads. These methods rely on discrete representations or semantic prompts fed into task-specific decoders, which limits the ability of the MLLM to capture fine-grained visual details. To address these challenges, we introduce a segmentation framework for MLLM based on image generation, which naturally produces dense masks for target objects. We leverage MLLM to output visual tokens and detokenize them into images using an universal VQ-VAE, making the segmentation fully dependent on the pixel-level understanding of the MLLM. To reduce inference latency, we employ a next-scale-prediction strategy to generate required visual tokens in parallel. Extensive experiments demonstrate that our method surpasses prior state-of-the-art approaches on multiple segmentation datasets with a remarkable boost in inference speed, while maintaining strong understanding capabilities.

ARGenSeg: Bildsegmentierung mit autoregressivem Bildgenerierungsmodell

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

papers.abstract

Support