C-DiffDet+ : Intégration du contexte global de la scène avec un débruitage génératif pour une détection d'objets de haute fidélité

papers.abstract

La détection d'objets à granularité fine dans des domaines visuels complexes, tels que l'évaluation des dommages aux véhicules, représente un défi considérable, même pour les experts humains, qui peinent à la résoudre de manière fiable. Bien que DiffusionDet ait fait progresser l'état de l'art grâce à la diffusion conditionnelle de débruitage, ses performances restent limitées par le conditionnement des caractéristiques locales dans des scénarios dépendants du contexte. Nous abordons cette limitation fondamentale en introduisant la Fusion Contextuelle (Context-Aware Fusion, CAF), qui exploite des mécanismes d'attention croisée pour intégrer directement le contexte global de la scène avec les caractéristiques locales des propositions. Le contexte global est généré à l'aide d'un encodeur dédié distinct qui capture des informations environnementales complètes, permettant à chaque proposition d'objet de s'appuyer sur une compréhension au niveau de la scène. Notre cadre améliore significativement le paradigme de détection générative en permettant à chaque proposition d'objet de prendre en compte des informations environnementales exhaustives. Les résultats expérimentaux démontrent une amélioration par rapport aux modèles de pointe sur le benchmark CarDD, établissant de nouveaux référentiels de performance pour la détection d'objets contextuelle dans des domaines à granularité fine.

English

Fine-grained object detection in challenging visual domains, such as vehicle damage assessment, presents a formidable challenge even for human experts to resolve reliably. While DiffusionDet has advanced the state-of-the-art through conditional denoising diffusion, its performance remains limited by local feature conditioning in context-dependent scenarios. We address this fundamental limitation by introducing Context-Aware Fusion (CAF), which leverages cross-attention mechanisms to integrate global scene context with local proposal features directly. The global context is generated using a separate dedicated encoder that captures comprehensive environmental information, enabling each object proposal to attend to scene-level understanding. Our framework significantly enhances the generative detection paradigm by enabling each object proposal to attend to comprehensive environmental information. Experimental results demonstrate an improvement over state-of-the-art models on the CarDD benchmark, establishing new performance benchmarks for context-aware object detection in fine-grained domains

C-DiffDet+ : Intégration du contexte global de la scène avec un débruitage génératif pour une détection d'objets de haute fidélité

C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

papers.abstract

Support