PerceptionDLM: Parallele Regionenwahrnehmung mit multimodalen Diffusions-Sprachmodellen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fortschritte bei visuellen Wahrnehmungsaufgaben erzielt. Die meisten existierenden MLLMs basieren jedoch auf autoregressiver Generierung, was ihre Effizienz für Wahrnehmungsaufgaben einschränkt, die eine Beschreibung mehrerer Regionen erfordern. In dieser Arbeit schlagen wir PerceptionDLM vor, ein multimodales Diffusionssprachmodell, das für effiziente parallele Regionswahrnehmung optimiert ist. Aufbauend auf PerceptionDLM-Base, einer starken grundlegenden Baseline, die den neuesten Stand der Technik unter den quelloffenen Diffusions-MLLMs erreicht, nutzt unsere Architektur die parallele Decodierungsnatur von DLMs vollständig aus. Insbesondere führen wir effizientes Prompting und strukturierte Aufmerksamkeitsmaskierung ein, um die gleichzeitige Wahrnehmung mehrerer maskierter Regionen zu ermöglichen, sodass das Modell Regionsbeschreibungen parallel sowohl auf Sequenz- als auch auf Tokenebene generieren kann. Dieses Design verbessert die Inferenzeffizienz erheblich im Vergleich zu bestehenden Ansätzen, die Regionen sequenziell verarbeiten. Um die Parallelitätseigenschaft der visuellen Wahrnehmungsfähigkeit von DLMs systematisch zu evaluieren, konstruieren wir einen neuen Parallel Detailed Localized Captioning Benchmark (ParaDLC-Bench), indem wir den DLC-Bench auf mehrere Regionsmasken pro Bild skalieren, was eine gemeinsame Bewertung sowohl der Beschreibungsqualität als auch der Inferenzeffizienz ermöglicht. Experimente zeigen, dass PerceptionDLM wettbewerbsfähige Leistung in der Regionsbeschreibung beibehält und gleichzeitig erhebliche Geschwindigkeitsverbesserungen für Aufgaben mit mehreren Regionen erzielt. Unsere Ergebnisse unterstreichen das Potenzial multimodaler Diffusionssprachmodelle für effiziente, parallele visuelle Wahrnehmung. Nach unserem besten Wissen sind wir die Ersten, die eine parallele Regionsbeschreibung und -wahrnehmung durch die Nutzung der Vorteile von Diffusionssprachmodellen erreichen. Code, Modelle und Datensätze werden veröffentlicht.

English

Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks. However, most existing MLLMs rely on autoregressive generation, which limits their efficiency for perception tasks that require captioning multiple regions. In this work, we propose PerceptionDLM, a multimodal diffusion language model optimized for efficient parallel region perception. Built upon PerceptionDLM-Base, a strong foundational baseline that achieves state-of-the-art performance among open-source diffusion MLLMs, our architecture fully leverages the parallel decoding nature of DLMs. Specifically, we introduce efficient prompting and structured attention masking to enable simultaneous perception of multiple masked regions, allowing the model to generate region descriptions in parallel at both the sequence and token levels. This design significantly improves inference efficiency compared with existing approaches that process regions sequentially. To systematically evaluate the parallelism property of visual perception capability for DLMs, we construct a new Parallel Detailed Localized Captioning Benchmark (ParaDLC-Bench) by scaling the DLC-Bench to include multiple region masks per image, enabling joint evaluation of both caption quality and inference efficiency. Experiments demonstrate that PerceptionDLM maintains competitive performance in region captioning while achieving substantial speed improvements for multi-region perception tasks. Our results highlight the potential of multimodal diffusion language models for efficient, parallel visual perception. To the best of our knowledge, we are the first to achieve parallel region caption and perception by leveraging the advantages of diffusion language models. Code, models, and datasets are released.