ChatPaper.aiChatPaper

Repenser la segmentation sémantique RGB-événement avec une nouvelle représentation bidirectionnelle des événements enrichie par le mouvement

Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2, 2025
Auteurs: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI

Résumé

Les caméras événementielles capturent la dynamique du mouvement, offrant une modalité unique avec un grand potentiel dans diverses tâches de vision par ordinateur. Cependant, la fusion RGB-Événement fait face à trois désalignements intrinsèques : (i) temporel, (ii) spatial, et (iii) modal. Les représentations existantes en grille voxel négligent les corrélations temporelles entre les fenêtres d'événements consécutives, et leur formulation par simple accumulation d'événements asynchrones et épars est incompatible avec la nature synchrone et dense de la modalité RGB. Pour relever ces défis, nous proposons une nouvelle représentation d'événements, le Tenseur d'Événements Amélioré par le Mouvement (MET), qui transforme les voxels d'événements épars en une forme dense et temporellement cohérente en exploitant les flux optiques denses et les caractéristiques temporelles des événements. De plus, nous introduisons un Module d'Agrégation de Flux Bidirectionnel Conscient de la Fréquence (BFAM) et un Module de Fusion Temporelle (TFM). Le BFAM exploite le domaine fréquentiel et le MET pour atténuer le désalignement modal, tandis que les mécanismes d'agrégation de flux bidirectionnel et de fusion temporelle résolvent le désalignement spatiotemporel. Les résultats expérimentaux sur deux ensembles de données à grande échelle démontrent que notre cadre surpasse significativement les approches de segmentation sémantique RGB-Événement de pointe. Notre code est disponible à l'adresse : https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great potential in various computer vision tasks. However, RGB-Event fusion faces three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal misalignment. Existing voxel grid representations neglect temporal correlations between consecutive event windows, and their formulation with simple accumulation of asynchronous and sparse events is incompatible with the synchronous and dense nature of RGB modality. To tackle these challenges, we propose a novel event representation, Motion-enhanced Event Tensor (MET), which transforms sparse event voxels into a dense and temporally coherent form by leveraging dense optical flows and event temporal features. In addition, we introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to mitigate modal misalignment, while bidirectional flow aggregation and temporal fusion mechanisms resolve spatiotemporal misalignment. Experimental results on two large-scale datasets demonstrate that our framework significantly outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our code is available at: https://github.com/zyaocoder/BRENet.

Summary

AI-Generated Summary

PDF11May 6, 2025