C-DiffDet+: Fusion globaler Szenenkontexte mit generativer Rauschunterdrückung für hochpräzise Objekterkennung

papers.abstract

Die feinkörnige Objekterkennung in anspruchsvollen visuellen Domänen, wie beispielsweise der Schadensbewertung von Fahrzeugen, stellt selbst für menschliche Experten eine beträchtliche Herausforderung dar, die zuverlässig zu bewältigen ist. Während DiffusionDet den Stand der Technik durch bedingtes Denoising-Diffusion vorangetrieben hat, bleibt seine Leistung durch die lokale Merkmalskonditionierung in kontextabhängigen Szenarien begrenzt. Wir adressieren diese grundlegende Einschränkung durch die Einführung von Context-Aware Fusion (CAF), das Cross-Attention-Mechanismen nutzt, um globalen Szenenkontext direkt mit lokalen Vorschlagsmerkmalen zu integrieren. Der globale Kontext wird mithilfe eines separaten, dedizierten Encoders generiert, der umfassende Umweltinformationen erfasst und es jedem Objektvorschlag ermöglicht, ein szenenweites Verständnis zu berücksichtigen. Unser Framework verbessert das generative Erkennungsparadigma erheblich, indem es jedem Objektvorschlag ermöglicht, umfassende Umweltinformationen zu berücksichtigen. Experimentelle Ergebnisse zeigen eine Verbesserung gegenüber den aktuellsten Modellen auf dem CarDD-Benchmark und setzen neue Leistungsstandards für die kontextbewusste Objekterkennung in feinkörnigen Domänen.

English

Fine-grained object detection in challenging visual domains, such as vehicle damage assessment, presents a formidable challenge even for human experts to resolve reliably. While DiffusionDet has advanced the state-of-the-art through conditional denoising diffusion, its performance remains limited by local feature conditioning in context-dependent scenarios. We address this fundamental limitation by introducing Context-Aware Fusion (CAF), which leverages cross-attention mechanisms to integrate global scene context with local proposal features directly. The global context is generated using a separate dedicated encoder that captures comprehensive environmental information, enabling each object proposal to attend to scene-level understanding. Our framework significantly enhances the generative detection paradigm by enabling each object proposal to attend to comprehensive environmental information. Experimental results demonstrate an improvement over state-of-the-art models on the CarDD benchmark, establishing new performance benchmarks for context-aware object detection in fine-grained domains

C-DiffDet+: Fusion globaler Szenenkontexte mit generativer Rauschunterdrückung für hochpräzise Objekterkennung

C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

papers.abstract

Support