Neubetrachtung der RGB-Ereignis-Semantiksegmentierung mit einer neuartigen bidirektionalen bewegungsverstärkten Ereignisdarstellung
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
May 2, 2025
Autoren: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI
Zusammenfassung
Event-Kameras erfassen Bewegungsdynamiken und bieten eine einzigartige Modalität mit großem Potenzial für verschiedene Computer-Vision-Aufgaben. Allerdings steht die RGB-Event-Fusion vor drei intrinsischen Fehlausrichtungen: (i) zeitliche, (ii) räumliche und (iii) modale Fehlausrichtung. Bestehende Voxel-Grid-Repräsentationen vernachlässigen die zeitlichen Korrelationen zwischen aufeinanderfolgenden Ereignisfenstern, und ihre Formulierung durch einfache Akkumulation von asynchronen und spärlichen Ereignissen ist mit der synchronen und dichten Natur der RGB-Modalität inkompatibel. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Ereignisdarstellung vor, den Motion-enhanced Event Tensor (MET), der spärliche Ereignisvoxel durch die Nutzung von dichten optischen Flüssen und zeitlichen Ereignismerkmalen in eine dichte und zeitlich kohärente Form transformiert. Zusätzlich führen wir ein Frequency-aware Bidirectional Flow Aggregation Module (BFAM) und ein Temporal Fusion Module (TFM) ein. BFAM nutzt den Frequenzbereich und MET, um die modale Fehlausrichtung zu mildern, während bidirektionale Flussaggregation und zeitliche Fusionsmechanismen die raumzeitliche Fehlausrichtung beheben. Experimentelle Ergebnisse auf zwei groß angelegten Datensätzen zeigen, dass unser Framework die aktuellsten RGB-Event-Semantiksegmentierungsansätze deutlich übertrifft. Unser Code ist verfügbar unter: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great
potential in various computer vision tasks. However, RGB-Event fusion faces
three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal
misalignment. Existing voxel grid representations neglect temporal correlations
between consecutive event windows, and their formulation with simple
accumulation of asynchronous and sparse events is incompatible with the
synchronous and dense nature of RGB modality. To tackle these challenges, we
propose a novel event representation, Motion-enhanced Event Tensor (MET), which
transforms sparse event voxels into a dense and temporally coherent form by
leveraging dense optical flows and event temporal features. In addition, we
introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a
Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to
mitigate modal misalignment, while bidirectional flow aggregation and temporal
fusion mechanisms resolve spatiotemporal misalignment. Experimental results on
two large-scale datasets demonstrate that our framework significantly
outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our
code is available at: https://github.com/zyaocoder/BRENet.Summary
AI-Generated Summary