C-DiffDet+: Объединение глобального контекста сцены с генеративным шумоподавлением для высокоточной детекции объектов
C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
August 30, 2025
Авторы: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante
cs.AI
Аннотация
Точное обнаружение объектов в сложных визуальных областях, таких как оценка повреждений транспортных средств, представляет собой значительную задачу даже для экспертов, которые не всегда могут справиться с ней надежно. Хотя DiffusionDet продвинул современные методы благодаря условному денизингу с использованием диффузии, его производительность остается ограниченной из-за локального условного анализа признаков в контекстно-зависимых сценариях. Мы устраняем это фундаментальное ограничение, вводя метод Context-Aware Fusion (CAF), который использует механизмы кросс-внимания для интеграции глобального контекста сцены с локальными признаками предложений напрямую. Глобальный контекст генерируется с помощью отдельного специализированного кодировщика, который захватывает полную информацию об окружающей среде, позволяя каждому предложению объекта учитывать понимание на уровне сцены. Наша структура значительно улучшает генеративную парадигму обнаружения, позволяя каждому предложению объекта учитывать полную информацию об окружающей среде. Экспериментальные результаты демонстрируют улучшение по сравнению с современными моделями на бенчмарке CarDD, устанавливая новые стандарты производительности для контекстно-зависимого обнаружения объектов в точных областях.
English
Fine-grained object detection in challenging visual domains, such as vehicle
damage assessment, presents a formidable challenge even for human experts to
resolve reliably. While DiffusionDet has advanced the state-of-the-art through
conditional denoising diffusion, its performance remains limited by local
feature conditioning in context-dependent scenarios. We address this
fundamental limitation by introducing Context-Aware Fusion (CAF), which
leverages cross-attention mechanisms to integrate global scene context with
local proposal features directly. The global context is generated using a
separate dedicated encoder that captures comprehensive environmental
information, enabling each object proposal to attend to scene-level
understanding. Our framework significantly enhances the generative detection
paradigm by enabling each object proposal to attend to comprehensive
environmental information. Experimental results demonstrate an improvement over
state-of-the-art models on the CarDD benchmark, establishing new performance
benchmarks for context-aware object detection in fine-grained domains