ChatPaper.aiChatPaper

Neubetrachtung der RGB-Ereignis-Semantiksegmentierung mit einer neuartigen bidirektionalen bewegungsverstärkten Ereignisdarstellung

Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2, 2025
Autoren: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI

Zusammenfassung

Event-Kameras erfassen Bewegungsdynamiken und bieten eine einzigartige Modalität mit großem Potenzial für verschiedene Computer-Vision-Aufgaben. Allerdings steht die RGB-Event-Fusion vor drei intrinsischen Fehlausrichtungen: (i) zeitliche, (ii) räumliche und (iii) modale Fehlausrichtung. Bestehende Voxel-Grid-Repräsentationen vernachlässigen die zeitlichen Korrelationen zwischen aufeinanderfolgenden Ereignisfenstern, und ihre Formulierung durch einfache Akkumulation von asynchronen und spärlichen Ereignissen ist mit der synchronen und dichten Natur der RGB-Modalität inkompatibel. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige Ereignisdarstellung vor, den Motion-enhanced Event Tensor (MET), der spärliche Ereignisvoxel durch die Nutzung von dichten optischen Flüssen und zeitlichen Ereignismerkmalen in eine dichte und zeitlich kohärente Form transformiert. Zusätzlich führen wir ein Frequency-aware Bidirectional Flow Aggregation Module (BFAM) und ein Temporal Fusion Module (TFM) ein. BFAM nutzt den Frequenzbereich und MET, um die modale Fehlausrichtung zu mildern, während bidirektionale Flussaggregation und zeitliche Fusionsmechanismen die raumzeitliche Fehlausrichtung beheben. Experimentelle Ergebnisse auf zwei groß angelegten Datensätzen zeigen, dass unser Framework die aktuellsten RGB-Event-Semantiksegmentierungsansätze deutlich übertrifft. Unser Code ist verfügbar unter: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great potential in various computer vision tasks. However, RGB-Event fusion faces three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal misalignment. Existing voxel grid representations neglect temporal correlations between consecutive event windows, and their formulation with simple accumulation of asynchronous and sparse events is incompatible with the synchronous and dense nature of RGB modality. To tackle these challenges, we propose a novel event representation, Motion-enhanced Event Tensor (MET), which transforms sparse event voxels into a dense and temporally coherent form by leveraging dense optical flows and event temporal features. In addition, we introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to mitigate modal misalignment, while bidirectional flow aggregation and temporal fusion mechanisms resolve spatiotemporal misalignment. Experimental results on two large-scale datasets demonstrate that our framework significantly outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our code is available at: https://github.com/zyaocoder/BRENet.

Summary

AI-Generated Summary

PDF11May 6, 2025