ARGenSeg: 자기회귀 이미지 생성 모델을 활용한 이미지 분할
ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
October 23, 2025
저자: Xiaolong Wang, Lixiang Ru, Ziyuan Huang, Kaixiang Ji, Dandan Zheng, Jingdong Chen, Jun Zhou
cs.AI
초록
우리는 이미지 분할을 위한 새로운 자기회귀 생성 기반 패러다임(ARGenSeg)을 제안하며, 통합 프레임워크 내에서 다중모달 이해와 픽셀 수준 인식을 달성합니다. 이미지 분할을 다중모달 대규모 언어 모델(MLLM)에 통합한 기존 연구들은 일반적으로 경계점 표현이나 전용 분할 헤드를 사용해 왔습니다. 이러한 방법들은 이산적 표현이나 작업 특화 디코더에 입력되는 의미론적 프롬프트에 의존하여, MLLM이 세밀한 시각적 디테일을 포착하는 능력을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 이미지 생성 기반의 MLLM 분할 프레임워크를 도입하여 대상 객체에 대한 밀집 마스크를 자연스럽게 생성합니다. 우리는 MLLM이 시각적 토큰을 출력하도록 하고 범용 VQ-VAE를 사용하여 이를 이미지로 디토큰화함으로써 분할이 MLLM의 픽셀 수준 이해에 완전히 의존하도록 합니다. 추론 지연 시간을 줄이기 위해, 다음 스케일 예측 전략을 활용하여 필요한 시각적 토큰을 병렬로 생성합니다. 광범위한 실험을 통해 우리의 방법이 여러 분할 데이터셋에서 기존 최첨단 접근법을 능가하며 추론 속도가 현저히 향상되고 강력한 이해 능력을 유지함을 입증합니다.
English
We propose a novel AutoRegressive Generation-based paradigm for image
Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level
perception within a unified framework. Prior works integrating image
segmentation into multimodal large language models (MLLMs) typically employ
either boundary points representation or dedicated segmentation heads. These
methods rely on discrete representations or semantic prompts fed into
task-specific decoders, which limits the ability of the MLLM to capture
fine-grained visual details. To address these challenges, we introduce a
segmentation framework for MLLM based on image generation, which naturally
produces dense masks for target objects. We leverage MLLM to output visual
tokens and detokenize them into images using an universal VQ-VAE, making the
segmentation fully dependent on the pixel-level understanding of the MLLM. To
reduce inference latency, we employ a next-scale-prediction strategy to
generate required visual tokens in parallel. Extensive experiments demonstrate
that our method surpasses prior state-of-the-art approaches on multiple
segmentation datasets with a remarkable boost in inference speed, while
maintaining strong understanding capabilities.