ChatPaper.aiChatPaper

C-DiffDet+: Integratie van globale scènecontext met generatieve ruisreductie voor hoogwaardige objectdetectie

C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

August 30, 2025
Auteurs: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI

Samenvatting

Fijnmazige objectdetectie in uitdagende visuele domeinen, zoals schadebeoordeling van voertuigen, vormt een aanzienlijke uitdaging, zelfs voor menselijke experts om betrouwbaar op te lossen. Hoewel DiffusionDet de stand van de techniek heeft verbeterd door middel van conditionele denoiseringsdiffusie, blijft de prestaties beperkt door lokale featureconditionering in contextafhankelijke scenario's. Wij pakken deze fundamentele beperking aan door Context-Aware Fusion (CAF) te introduceren, dat cross-attention-mechanismen benut om globale scènecontext te integreren met lokale voorstelfeatures. De globale context wordt gegenereerd met behulp van een aparte, toegewijde encoder die uitgebreide omgevingsinformatie vastlegt, waardoor elk objectvoorstel aandacht kan besteden aan scèniveau-begrip. Ons framework verbetert het generatieve detectieparadigma aanzienlijk door elk objectvoorstel in staat te stellen aandacht te besteden aan uitgebreide omgevingsinformatie. Experimentele resultaten tonen een verbetering ten opzichte van state-of-the-art modellen op de CarDD-benchmark, waarmee nieuwe prestatiebenchmarks worden gevestigd voor contextbewuste objectdetectie in fijnmazige domeinen.
English
Fine-grained object detection in challenging visual domains, such as vehicle damage assessment, presents a formidable challenge even for human experts to resolve reliably. While DiffusionDet has advanced the state-of-the-art through conditional denoising diffusion, its performance remains limited by local feature conditioning in context-dependent scenarios. We address this fundamental limitation by introducing Context-Aware Fusion (CAF), which leverages cross-attention mechanisms to integrate global scene context with local proposal features directly. The global context is generated using a separate dedicated encoder that captures comprehensive environmental information, enabling each object proposal to attend to scene-level understanding. Our framework significantly enhances the generative detection paradigm by enabling each object proposal to attend to comprehensive environmental information. Experimental results demonstrate an improvement over state-of-the-art models on the CarDD benchmark, establishing new performance benchmarks for context-aware object detection in fine-grained domains
PDF11September 3, 2025