Repenser la segmentation sémantique RGB-événement avec une nouvelle représentation bidirectionnelle des événements enrichie par le mouvement
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
May 2, 2025
Auteurs: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI
Résumé
Les caméras événementielles capturent la dynamique du mouvement, offrant une modalité unique avec un grand potentiel dans diverses tâches de vision par ordinateur. Cependant, la fusion RGB-Événement fait face à trois désalignements intrinsèques : (i) temporel, (ii) spatial, et (iii) modal. Les représentations existantes en grille voxel négligent les corrélations temporelles entre les fenêtres d'événements consécutives, et leur formulation par simple accumulation d'événements asynchrones et épars est incompatible avec la nature synchrone et dense de la modalité RGB. Pour relever ces défis, nous proposons une nouvelle représentation d'événements, le Tenseur d'Événements Amélioré par le Mouvement (MET), qui transforme les voxels d'événements épars en une forme dense et temporellement cohérente en exploitant les flux optiques denses et les caractéristiques temporelles des événements. De plus, nous introduisons un Module d'Agrégation de Flux Bidirectionnel Conscient de la Fréquence (BFAM) et un Module de Fusion Temporelle (TFM). Le BFAM exploite le domaine fréquentiel et le MET pour atténuer le désalignement modal, tandis que les mécanismes d'agrégation de flux bidirectionnel et de fusion temporelle résolvent le désalignement spatiotemporel. Les résultats expérimentaux sur deux ensembles de données à grande échelle démontrent que notre cadre surpasse significativement les approches de segmentation sémantique RGB-Événement de pointe. Notre code est disponible à l'adresse : https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great
potential in various computer vision tasks. However, RGB-Event fusion faces
three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal
misalignment. Existing voxel grid representations neglect temporal correlations
between consecutive event windows, and their formulation with simple
accumulation of asynchronous and sparse events is incompatible with the
synchronous and dense nature of RGB modality. To tackle these challenges, we
propose a novel event representation, Motion-enhanced Event Tensor (MET), which
transforms sparse event voxels into a dense and temporally coherent form by
leveraging dense optical flows and event temporal features. In addition, we
introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a
Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to
mitigate modal misalignment, while bidirectional flow aggregation and temporal
fusion mechanisms resolve spatiotemporal misalignment. Experimental results on
two large-scale datasets demonstrate that our framework significantly
outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our
code is available at: https://github.com/zyaocoder/BRENet.Summary
AI-Generated Summary