ARGenSeg: Segmentación de Imágenes con Modelo de Generación Autoregresiva de Imágenes

Resumen

Proponemos un nuevo paradigma de segmentación de imágenes basado en generación autoregresiva (ARGenSeg), logrando comprensión multimodal y percepción a nivel de píxel dentro de un marco unificado. Los trabajos previos que integran segmentación de imágenes en modelos de lenguaje grandes multimodales (MLLM) suelen emplear representaciones mediante puntos de contorno o cabezales de segmentación dedicados. Estos métodos dependen de representaciones discretas o *prompts* semánticos introducidos en decodificadores específicos de tarea, lo que limita la capacidad del MLLM para capturar detalles visuales finos. Para abordar estos desafíos, presentamos un marco de segmentación para MLLM basado en generación de imágenes, que produce naturalmente máscaras densas para objetos objetivo. Aprovechamos el MLLM para generar *tokens* visuales y los desconvertimos en imágenes usando un VQ-VAE universal, haciendo que la segmentación dependa completamente de la comprensión a nivel de píxel del MLLM. Para reducir la latencia de inferencia, empleamos una estrategia de predicción de escala siguiente para generar los *tokens* visuales requeridos en paralelo. Experimentos exhaustivos demuestran que nuestro método supera a los enfoques anteriores de vanguardia en múltiples conjuntos de datos de segmentación con un notable aumento en la velocidad de inferencia, manteniendo sólidas capacidades de comprensión.

English

We propose a novel AutoRegressive Generation-based paradigm for image Segmentation (ARGenSeg), achieving multimodal understanding and pixel-level perception within a unified framework. Prior works integrating image segmentation into multimodal large language models (MLLMs) typically employ either boundary points representation or dedicated segmentation heads. These methods rely on discrete representations or semantic prompts fed into task-specific decoders, which limits the ability of the MLLM to capture fine-grained visual details. To address these challenges, we introduce a segmentation framework for MLLM based on image generation, which naturally produces dense masks for target objects. We leverage MLLM to output visual tokens and detokenize them into images using an universal VQ-VAE, making the segmentation fully dependent on the pixel-level understanding of the MLLM. To reduce inference latency, we employ a next-scale-prediction strategy to generate required visual tokens in parallel. Extensive experiments demonstrate that our method surpasses prior state-of-the-art approaches on multiple segmentation datasets with a remarkable boost in inference speed, while maintaining strong understanding capabilities.

ARGenSeg: Segmentación de Imágenes con Modelo de Generación Autoregresiva de Imágenes

ARGenSeg: Image Segmentation with Autoregressive Image Generation Model

Resumen

Support