Переосмысление семантической сегментации RGB-событий с использованием новой двунаправленной представления событий, усиленного движением
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
May 2, 2025
Авторы: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI
Аннотация
Камеры событий фиксируют динамику движения, предоставляя уникальную модальность с большим потенциалом для различных задач компьютерного зрения. Однако слияние RGB и событий сталкивается с тремя внутренними несоответствиями: (i) временным, (ii) пространственным и (iii) модальным. Существующие представления в виде воксельных сеток игнорируют временные корреляции между последовательными окнами событий, а их формулировка с простым накоплением асинхронных и разреженных событий несовместима с синхронной и плотной природой RGB-модальности. Для решения этих проблем мы предлагаем новое представление событий — Motion-enhanced Event Tensor (MET), которое преобразует разреженные воксели событий в плотную и временно согласованную форму, используя плотные оптические потоки и временные характеристики событий. Кроме того, мы вводим Frequency-aware Bidirectional Flow Aggregation Module (BFAM) и Temporal Fusion Module (TFM). BFAM использует частотную область и MET для смягчения модального несоответствия, в то время как двунаправленная агрегация потоков и механизмы временного слияния устраняют пространственно-временное несоответствие. Экспериментальные результаты на двух крупномасштабных наборах данных показывают, что наш подход значительно превосходит современные методы семантической сегментации RGB-событий. Наш код доступен по адресу: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great
potential in various computer vision tasks. However, RGB-Event fusion faces
three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal
misalignment. Existing voxel grid representations neglect temporal correlations
between consecutive event windows, and their formulation with simple
accumulation of asynchronous and sparse events is incompatible with the
synchronous and dense nature of RGB modality. To tackle these challenges, we
propose a novel event representation, Motion-enhanced Event Tensor (MET), which
transforms sparse event voxels into a dense and temporally coherent form by
leveraging dense optical flows and event temporal features. In addition, we
introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a
Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to
mitigate modal misalignment, while bidirectional flow aggregation and temporal
fusion mechanisms resolve spatiotemporal misalignment. Experimental results on
two large-scale datasets demonstrate that our framework significantly
outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our
code is available at: https://github.com/zyaocoder/BRENet.Summary
AI-Generated Summary