C-DiffDet+: Fusion globaler Szenenkontexte mit generativer Rauschunterdrückung für hochpräzise Objekterkennung
C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
August 30, 2025
papers.authors: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI
papers.abstract
Die feinkörnige Objekterkennung in anspruchsvollen visuellen Domänen, wie beispielsweise der Schadensbewertung von Fahrzeugen, stellt selbst für menschliche Experten eine beträchtliche Herausforderung dar, die zuverlässig zu bewältigen ist. Während DiffusionDet den Stand der Technik durch bedingtes Denoising-Diffusion vorangetrieben hat, bleibt seine Leistung durch die lokale Merkmalskonditionierung in kontextabhängigen Szenarien begrenzt. Wir adressieren diese grundlegende Einschränkung durch die Einführung von Context-Aware Fusion (CAF), das Cross-Attention-Mechanismen nutzt, um globalen Szenenkontext direkt mit lokalen Vorschlagsmerkmalen zu integrieren. Der globale Kontext wird mithilfe eines separaten, dedizierten Encoders generiert, der umfassende Umweltinformationen erfasst und es jedem Objektvorschlag ermöglicht, ein szenenweites Verständnis zu berücksichtigen. Unser Framework verbessert das generative Erkennungsparadigma erheblich, indem es jedem Objektvorschlag ermöglicht, umfassende Umweltinformationen zu berücksichtigen. Experimentelle Ergebnisse zeigen eine Verbesserung gegenüber den aktuellsten Modellen auf dem CarDD-Benchmark und setzen neue Leistungsstandards für die kontextbewusste Objekterkennung in feinkörnigen Domänen.
English
Fine-grained object detection in challenging visual domains, such as vehicle
damage assessment, presents a formidable challenge even for human experts to
resolve reliably. While DiffusionDet has advanced the state-of-the-art through
conditional denoising diffusion, its performance remains limited by local
feature conditioning in context-dependent scenarios. We address this
fundamental limitation by introducing Context-Aware Fusion (CAF), which
leverages cross-attention mechanisms to integrate global scene context with
local proposal features directly. The global context is generated using a
separate dedicated encoder that captures comprehensive environmental
information, enabling each object proposal to attend to scene-level
understanding. Our framework significantly enhances the generative detection
paradigm by enabling each object proposal to attend to comprehensive
environmental information. Experimental results demonstrate an improvement over
state-of-the-art models on the CarDD benchmark, establishing new performance
benchmarks for context-aware object detection in fine-grained domains