ChatPaper.aiChatPaper

Переосмысление семантической сегментации RGB-событий с использованием новой двунаправленной представления событий, усиленного движением

Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2, 2025
Авторы: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI

Аннотация

Камеры событий фиксируют динамику движения, предоставляя уникальную модальность с большим потенциалом для различных задач компьютерного зрения. Однако слияние RGB и событий сталкивается с тремя внутренними несоответствиями: (i) временным, (ii) пространственным и (iii) модальным. Существующие представления в виде воксельных сеток игнорируют временные корреляции между последовательными окнами событий, а их формулировка с простым накоплением асинхронных и разреженных событий несовместима с синхронной и плотной природой RGB-модальности. Для решения этих проблем мы предлагаем новое представление событий — Motion-enhanced Event Tensor (MET), которое преобразует разреженные воксели событий в плотную и временно согласованную форму, используя плотные оптические потоки и временные характеристики событий. Кроме того, мы вводим Frequency-aware Bidirectional Flow Aggregation Module (BFAM) и Temporal Fusion Module (TFM). BFAM использует частотную область и MET для смягчения модального несоответствия, в то время как двунаправленная агрегация потоков и механизмы временного слияния устраняют пространственно-временное несоответствие. Экспериментальные результаты на двух крупномасштабных наборах данных показывают, что наш подход значительно превосходит современные методы семантической сегментации RGB-событий. Наш код доступен по адресу: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great potential in various computer vision tasks. However, RGB-Event fusion faces three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal misalignment. Existing voxel grid representations neglect temporal correlations between consecutive event windows, and their formulation with simple accumulation of asynchronous and sparse events is incompatible with the synchronous and dense nature of RGB modality. To tackle these challenges, we propose a novel event representation, Motion-enhanced Event Tensor (MET), which transforms sparse event voxels into a dense and temporally coherent form by leveraging dense optical flows and event temporal features. In addition, we introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to mitigate modal misalignment, while bidirectional flow aggregation and temporal fusion mechanisms resolve spatiotemporal misalignment. Experimental results on two large-scale datasets demonstrate that our framework significantly outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our code is available at: https://github.com/zyaocoder/BRENet.

Summary

AI-Generated Summary

PDF11May 6, 2025