ChatPaper.aiChatPaper

C-DiffDet+: Integrando Contexto Global de Cena com Desnudação Generativa para Detecção de Objetos de Alta Fidelidade

C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

August 30, 2025
Autores: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI

Resumo

A detecção de objetos em nível refinado em domínios visuais desafiadores, como a avaliação de danos em veículos, apresenta um desafio formidável até mesmo para especialistas humanos resolverem de forma confiável. Embora o DiffusionDet tenha avançado o estado da arte por meio de difusão condicional de remoção de ruído, seu desempenho permanece limitado pelo condicionamento de características locais em cenários dependentes de contexto. Nós abordamos essa limitação fundamental introduzindo o Context-Aware Fusion (CAF), que aproveita mecanismos de atenção cruzada para integrar diretamente o contexto global da cena com as características das propostas locais. O contexto global é gerado usando um codificador dedicado separado que captura informações ambientais abrangentes, permitindo que cada proposta de objeto atente para o entendimento em nível de cena. Nosso framework aprimora significativamente o paradigma de detecção generativa ao permitir que cada proposta de objeto atente para informações ambientais abrangentes. Resultados experimentais demonstram uma melhoria em relação aos modelos de última geração no benchmark CarDD, estabelecendo novos marcos de desempenho para detecção de objetos consciente do contexto em domínios de nível refinado.
English
Fine-grained object detection in challenging visual domains, such as vehicle damage assessment, presents a formidable challenge even for human experts to resolve reliably. While DiffusionDet has advanced the state-of-the-art through conditional denoising diffusion, its performance remains limited by local feature conditioning in context-dependent scenarios. We address this fundamental limitation by introducing Context-Aware Fusion (CAF), which leverages cross-attention mechanisms to integrate global scene context with local proposal features directly. The global context is generated using a separate dedicated encoder that captures comprehensive environmental information, enabling each object proposal to attend to scene-level understanding. Our framework significantly enhances the generative detection paradigm by enabling each object proposal to attend to comprehensive environmental information. Experimental results demonstrate an improvement over state-of-the-art models on the CarDD benchmark, establishing new performance benchmarks for context-aware object detection in fine-grained domains
PDF11September 3, 2025