ChatPaper.aiChatPaper

C-DiffDet+: Fusión del contexto global de la escena con desenfoque generativo para la detección de objetos de alta fidelidad

C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

August 30, 2025
Autores: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI

Resumen

La detección de objetos de grano fino en dominios visuales desafiantes, como la evaluación de daños en vehículos, presenta un reto formidable incluso para expertos humanos, quienes a menudo tienen dificultades para resolverla de manera confiable. Si bien DiffusionDet ha avanzado el estado del arte mediante la difusión condicional de eliminación de ruido, su rendimiento sigue limitado por el condicionamiento de características locales en escenarios dependientes del contexto. Abordamos esta limitación fundamental introduciendo la Fusión Consciente del Contexto (CAF, por sus siglas en inglés), que aprovecha mecanismos de atención cruzada para integrar directamente el contexto global de la escena con las características locales de las propuestas. El contexto global se genera utilizando un codificador dedicado separado que captura información ambiental integral, permitiendo que cada propuesta de objeto atienda a una comprensión a nivel de escena. Nuestro marco mejora significativamente el paradigma de detección generativa al permitir que cada propuesta de objeto atienda a información ambiental completa. Los resultados experimentales demuestran una mejora sobre los modelos más avanzados en el benchmark CarDD, estableciendo nuevos estándares de rendimiento para la detección de objetos consciente del contexto en dominios de grano fino.
English
Fine-grained object detection in challenging visual domains, such as vehicle damage assessment, presents a formidable challenge even for human experts to resolve reliably. While DiffusionDet has advanced the state-of-the-art through conditional denoising diffusion, its performance remains limited by local feature conditioning in context-dependent scenarios. We address this fundamental limitation by introducing Context-Aware Fusion (CAF), which leverages cross-attention mechanisms to integrate global scene context with local proposal features directly. The global context is generated using a separate dedicated encoder that captures comprehensive environmental information, enabling each object proposal to attend to scene-level understanding. Our framework significantly enhances the generative detection paradigm by enabling each object proposal to attend to comprehensive environmental information. Experimental results demonstrate an improvement over state-of-the-art models on the CarDD benchmark, establishing new performance benchmarks for context-aware object detection in fine-grained domains
PDF11September 3, 2025