ARGenSeg: Segmentación de Imágenes con Modelo de Generación Autoregresiva de Imágenes
ARGenSeg: Image Segmentation with Autoregressive Image Generation Model
October 23, 2025
Autores: Xiaolong Wang, Lixiang Ru, Ziyuan Huang, Kaixiang Ji, Dandan Zheng, Jingdong Chen, Jun Zhou
cs.AI
Resumen
Proponemos un nuevo paradigma de segmentación de imágenes basado en generación autoregresiva (ARGenSeg), logrando comprensión multimodal y percepción a nivel de píxel dentro de un marco unificado. Los trabajos previos que integran segmentación de imágenes en modelos de lenguaje grandes multimodales (MLLM) suelen emplear representaciones mediante puntos de contorno o cabezales de segmentación dedicados. Estos métodos dependen de representaciones discretas o *prompts* semánticos introducidos en decodificadores específicos de tarea, lo que limita la capacidad del MLLM para capturar detalles visuales finos. Para abordar estos desafíos, presentamos un marco de segmentación para MLLM basado en generación de imágenes, que produce naturalmente máscaras densas para objetos objetivo. Aprovechamos el MLLM para generar *tokens* visuales y los desconvertimos en imágenes usando un VQ-VAE universal, haciendo que la segmentación dependa completamente de la comprensión a nivel de píxel del MLLM. Para reducir la latencia de inferencia, empleamos una estrategia de predicción de escala siguiente para generar los *tokens* visuales requeridos en paralelo. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques anteriores de vanguardia en múltiples conjuntos de datos de segmentación con un notable aumento en la velocidad de inferencia, manteniendo sólidas capacidades de comprensión.
English
We propose a novel AutoRegressive Generation-based paradigm for image
Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level
perception within a unified framework. Prior works integrating image
segmentation into multimodal large language models (MLLMs) typically employ
either boundary points representation or dedicated segmentation heads. These
methods rely on discrete representations or semantic prompts fed into
task-specific decoders, which limits the ability of the MLLM to capture
fine-grained visual details. To address these challenges, we introduce a
segmentation framework for MLLM based on image generation, which naturally
produces dense masks for target objects. We leverage MLLM to output visual
tokens and detokenize them into images using an universal VQ-VAE, making the
segmentation fully dependent on the pixel-level understanding of the MLLM. To
reduce inference latency, we employ a next-scale-prediction strategy to
generate required visual tokens in parallel. Extensive experiments demonstrate
that our method surpasses prior state-of-the-art approaches on multiple
segmentation datasets with a remarkable boost in inference speed, while
maintaining strong understanding capabilities.