PerceptionDLM: Percepción Paralela de Regiones con Modelos de Lenguaje de Difusión Multimodal

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs) han logrado un progreso notable en tareas de comprensión visual. Sin embargo, la mayoría de los MLLMs existentes dependen de la generación autorregresiva, lo que limita su eficiencia en tareas de percepción que requieren el etiquetado de múltiples regiones. En este trabajo, proponemos PerceptionDLM, un modelo de lenguaje multimodal de difusión optimizado para la percepción paralela eficiente de regiones. Construido sobre PerceptionDLM-Base, una línea base fundamental sólida que alcanza un rendimiento de vanguardia entre los MLLMs de difusión de código abierto, nuestra arquitectura aprovecha plenamente la naturaleza de decodificación paralela de los DLMs. Específicamente, introducimos indicaciones eficientes y enmascaramiento de atención estructurado para permitir la percepción simultánea de múltiples regiones enmascaradas, lo que permite que el modelo genere descripciones de regiones en paralelo tanto a nivel de secuencia como de token. Este diseño mejora significativamente la eficiencia de inferencia en comparación con los enfoques existentes que procesan las regiones de forma secuencial. Para evaluar sistemáticamente la propiedad de paralelismo de la capacidad de percepción visual en los DLMs, construimos un nuevo punto de referencia de etiquetado localizado detallado paralelo (ParaDLC-Bench) escalando el DLC-Bench para incluir múltiples máscaras de región por imagen, lo que permite una evaluación conjunta tanto de la calidad del etiquetado como de la eficiencia de inferencia. Los experimentos demuestran que PerceptionDLM mantiene un rendimiento competitivo en el etiquetado de regiones, logrando al mismo tiempo mejoras sustanciales en velocidad para tareas de percepción de múltiples regiones. Nuestros resultados destacan el potencial de los modelos de lenguaje multimodal de difusión para la percepción visual eficiente y paralela. Hasta donde sabemos, somos los primeros en lograr el etiquetado y la percepción paralela de regiones aprovechando las ventajas de los modelos de lenguaje de difusión. Se publican el código, los modelos y los conjuntos de datos.

English

Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks. However, most existing MLLMs rely on autoregressive generation, which limits their efficiency for perception tasks that require captioning multiple regions. In this work, we propose PerceptionDLM, a multimodal diffusion language model optimized for efficient parallel region perception. Built upon PerceptionDLM-Base, a strong foundational baseline that achieves state-of-the-art performance among open-source diffusion MLLMs, our architecture fully leverages the parallel decoding nature of DLMs. Specifically, we introduce efficient prompting and structured attention masking to enable simultaneous perception of multiple masked regions, allowing the model to generate region descriptions in parallel at both the sequence and token levels. This design significantly improves inference efficiency compared with existing approaches that process regions sequentially. To systematically evaluate the parallelism property of visual perception capability for DLMs, we construct a new Parallel Detailed Localized Captioning Benchmark (ParaDLC-Bench) by scaling the DLC-Bench to include multiple region masks per image, enabling joint evaluation of both caption quality and inference efficiency. Experiments demonstrate that PerceptionDLM maintains competitive performance in region captioning while achieving substantial speed improvements for multi-region perception tasks. Our results highlight the potential of multimodal diffusion language models for efficient, parallel visual perception. To the best of our knowledge, we are the first to achieve parallel region caption and perception by leveraging the advantages of diffusion language models. Code, models, and datasets are released.