C-DiffDet+: Fusione del Contesto Globale della Scena con la Denoising Generativa per il Rilevamento di Oggetti ad Alta Fedeltà
C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
August 30, 2025
Autori: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI
Abstract
Il rilevamento di oggetti a grana fine in domini visivi complessi, come la valutazione dei danni ai veicoli, rappresenta una sfida formidabile anche per esperti umani da risolvere in modo affidabile. Sebbene DiffusionDet abbia fatto progredire lo stato dell'arte attraverso la diffusione condizionata di denoising, le sue prestazioni rimangono limitate dal condizionamento delle caratteristiche locali in scenari dipendenti dal contesto. Affrontiamo questa limitazione fondamentale introducendo la Context-Aware Fusion (CAF), che sfrutta meccanismi di cross-attention per integrare direttamente il contesto globale della scena con le caratteristiche delle proposte locali. Il contesto globale viene generato utilizzando un encoder dedicato separato che cattura informazioni ambientali complete, consentendo a ciascuna proposta di oggetto di prestare attenzione alla comprensione a livello di scena. Il nostro framework migliora significativamente il paradigma di rilevamento generativo, permettendo a ciascuna proposta di oggetto di considerare informazioni ambientali complete. I risultati sperimentali dimostrano un miglioramento rispetto ai modelli all'avanguardia sul benchmark CarDD, stabilendo nuovi standard di prestazione per il rilevamento di oggetti consapevole del contesto in domini a grana fine.
English
Fine-grained object detection in challenging visual domains, such as vehicle
damage assessment, presents a formidable challenge even for human experts to
resolve reliably. While DiffusionDet has advanced the state-of-the-art through
conditional denoising diffusion, its performance remains limited by local
feature conditioning in context-dependent scenarios. We address this
fundamental limitation by introducing Context-Aware Fusion (CAF), which
leverages cross-attention mechanisms to integrate global scene context with
local proposal features directly. The global context is generated using a
separate dedicated encoder that captures comprehensive environmental
information, enabling each object proposal to attend to scene-level
understanding. Our framework significantly enhances the generative detection
paradigm by enabling each object proposal to attend to comprehensive
environmental information. Experimental results demonstrate an improvement over
state-of-the-art models on the CarDD benchmark, establishing new performance
benchmarks for context-aware object detection in fine-grained domains