C-DiffDet+ : Intégration du contexte global de la scène avec un débruitage génératif pour une détection d'objets de haute fidélité
C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
August 30, 2025
papers.authors: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI
papers.abstract
La détection d'objets à granularité fine dans des domaines visuels complexes, tels que l'évaluation des dommages aux véhicules, représente un défi considérable, même pour les experts humains, qui peinent à la résoudre de manière fiable. Bien que DiffusionDet ait fait progresser l'état de l'art grâce à la diffusion conditionnelle de débruitage, ses performances restent limitées par le conditionnement des caractéristiques locales dans des scénarios dépendants du contexte. Nous abordons cette limitation fondamentale en introduisant la Fusion Contextuelle (Context-Aware Fusion, CAF), qui exploite des mécanismes d'attention croisée pour intégrer directement le contexte global de la scène avec les caractéristiques locales des propositions. Le contexte global est généré à l'aide d'un encodeur dédié distinct qui capture des informations environnementales complètes, permettant à chaque proposition d'objet de s'appuyer sur une compréhension au niveau de la scène. Notre cadre améliore significativement le paradigme de détection générative en permettant à chaque proposition d'objet de prendre en compte des informations environnementales exhaustives. Les résultats expérimentaux démontrent une amélioration par rapport aux modèles de pointe sur le benchmark CarDD, établissant de nouveaux référentiels de performance pour la détection d'objets contextuelle dans des domaines à granularité fine.
English
Fine-grained object detection in challenging visual domains, such as vehicle
damage assessment, presents a formidable challenge even for human experts to
resolve reliably. While DiffusionDet has advanced the state-of-the-art through
conditional denoising diffusion, its performance remains limited by local
feature conditioning in context-dependent scenarios. We address this
fundamental limitation by introducing Context-Aware Fusion (CAF), which
leverages cross-attention mechanisms to integrate global scene context with
local proposal features directly. The global context is generated using a
separate dedicated encoder that captures comprehensive environmental
information, enabling each object proposal to attend to scene-level
understanding. Our framework significantly enhances the generative detection
paradigm by enabling each object proposal to attend to comprehensive
environmental information. Experimental results demonstrate an improvement over
state-of-the-art models on the CarDD benchmark, establishing new performance
benchmarks for context-aware object detection in fine-grained domains