ChatPaper.aiChatPaper

ARGenSeg: Beeldsegmentatie met een autoregressief beeldgeneratiemodel

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

October 23, 2025
Auteurs: Xiaolong Wang, Lixiang Ru, Ziyuan Huang, Kaixiang Ji, Dandan Zheng, Jingdong Chen, Jun Zhou
cs.AI

Samenvatting

Wij introduceren een nieuw paradigma voor beeldsegmentatie op basis van autoregressieve generatie (ARGenSeg), dat multimodale interpretatie en pixel-level perceptie verenigt binnen een uniform raamwerk. Bestaande methoden die beeldsegmentatie integreren in multimodale grote taalmodellen (MLLM's) maken typisch gebruik van óf grenspuntrepresentaties óf gespecialiseerde segmentatiekoppen. Deze methoden steunen op discrete representaties of semantische prompts die aan taakspecifieke decoders worden gevoed, wat het vermogen van het MLLM om fijnmazige visuele details te vatten beperkt. Om deze uitdagingen aan te pakken, introduceren we een op beeldgeneratie gebaseerd segmentatieraamwerk voor MLLM's, dat op natuurlijke wijze dichte maskers voor doelobjecten produceert. We benutten het MLLM om visuele tokens uit te voeren en deze met een universele VQ-VAE te detokeniseren naar beelden, waardoor de segmentatie volledig afhangt van het pixel-level begrip van het MLLM. Om de inferentielatentie te reduceren, gebruiken we een next-scale-voorspellingsstrategie om de vereiste visuele tokens parallel te genereren. Uitgebreide experimenten tonen aan dat onze methode de staat-van-de-kunst benaderingen op meerdere segmentatiedatasets overtreft met een opmerkelijke versnelling van de inferentiesnelheid, terwijl sterke interpretatiecapaciteiten behouden blijven.
English
We propose a novel AutoRegressive Generation-based paradigm for image Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level perception within a unified framework. Prior works integrating image segmentation into multimodal large language models (MLLMs) typically employ either boundary points representation or dedicated segmentation heads. These methods rely on discrete representations or semantic prompts fed into task-specific decoders, which limits the ability of the MLLM to capture fine-grained visual details. To address these challenges, we introduce a segmentation framework for MLLM based on image generation, which naturally produces dense masks for target objects. We leverage MLLM to output visual tokens and detokenize them into images using an universal VQ-VAE, making the segmentation fully dependent on the pixel-level understanding of the MLLM. To reduce inference latency, we employ a next-scale-prediction strategy to generate required visual tokens in parallel. Extensive experiments demonstrate that our method surpasses prior state-of-the-art approaches on multiple segmentation datasets with a remarkable boost in inference speed, while maintaining strong understanding capabilities.
PDF92December 2, 2025