ARGenSeg: Beeldsegmentatie met een autoregressief beeldgeneratiemodel
ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
October 23, 2025
Auteurs: Xiaolong Wang, Lixiang Ru, Ziyuan Huang, Kaixiang Ji, Dandan Zheng, Jingdong Chen, Jun Zhou
cs.AI
Samenvatting
Wij introduceren een nieuw paradigma voor beeldsegmentatie op basis van autoregressieve generatie (ARGenSeg), dat multimodale interpretatie en pixel-level perceptie verenigt binnen een uniform raamwerk. Bestaande methoden die beeldsegmentatie integreren in multimodale grote taalmodellen (MLLM's) maken typisch gebruik van óf grenspuntrepresentaties óf gespecialiseerde segmentatiekoppen. Deze methoden steunen op discrete representaties of semantische prompts die aan taakspecifieke decoders worden gevoed, wat het vermogen van het MLLM om fijnmazige visuele details te vatten beperkt. Om deze uitdagingen aan te pakken, introduceren we een op beeldgeneratie gebaseerd segmentatieraamwerk voor MLLM's, dat op natuurlijke wijze dichte maskers voor doelobjecten produceert. We benutten het MLLM om visuele tokens uit te voeren en deze met een universele VQ-VAE te detokeniseren naar beelden, waardoor de segmentatie volledig afhangt van het pixel-level begrip van het MLLM. Om de inferentielatentie te reduceren, gebruiken we een next-scale-voorspellingsstrategie om de vereiste visuele tokens parallel te genereren. Uitgebreide experimenten tonen aan dat onze methode de staat-van-de-kunst benaderingen op meerdere segmentatiedatasets overtreft met een opmerkelijke versnelling van de inferentiesnelheid, terwijl sterke interpretatiecapaciteiten behouden blijven.
English
We propose a novel AutoRegressive Generation-based paradigm for image
Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level
perception within a unified framework. Prior works integrating image
segmentation into multimodal large language models (MLLMs) typically employ
either boundary points representation or dedicated segmentation heads. These
methods rely on discrete representations or semantic prompts fed into
task-specific decoders, which limits the ability of the MLLM to capture
fine-grained visual details. To address these challenges, we introduce a
segmentation framework for MLLM based on image generation, which naturally
produces dense masks for target objects. We leverage MLLM to output visual
tokens and detokenize them into images using an universal VQ-VAE, making the
segmentation fully dependent on the pixel-level understanding of the MLLM. To
reduce inference latency, we employ a next-scale-prediction strategy to
generate required visual tokens in parallel. Extensive experiments demonstrate
that our method surpasses prior state-of-the-art approaches on multiple
segmentation datasets with a remarkable boost in inference speed, while
maintaining strong understanding capabilities.