Ripensando alla segmentazione semantica RGB-Eventi con una nuova rappresentazione bidirezionale degli eventi potenziata dal movimento
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
May 2, 2025
Autori: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI
Abstract
Le telecamere event-based catturano la dinamica del movimento, offrendo una modalità unica con un grande potenziale in vari compiti di visione artificiale. Tuttavia, la fusione RGB-Event deve affrontare tre disallineamenti intrinseci: (i) temporale, (ii) spaziale e (iii) modale. Le rappresentazioni esistenti tramite griglie voxel trascurano le correlazioni temporali tra finestre di eventi consecutive, e la loro formulazione con una semplice accumulazione di eventi asincroni e sparsi è incompatibile con la natura sincrona e densa della modalità RGB. Per affrontare queste sfide, proponiamo una nuova rappresentazione degli eventi, il Motion-enhanced Event Tensor (MET), che trasforma i voxel di eventi sparsi in una forma densa e temporalmente coerente sfruttando flussi ottici densi e caratteristiche temporali degli eventi. Inoltre, introduciamo un modulo di aggregazione del flusso bidirezionale basato sulla frequenza (BFAM) e un modulo di fusione temporale (TFM). Il BFAM sfrutta il dominio della frequenza e il MET per mitigare il disallineamento modale, mentre i meccanismi di aggregazione del flusso bidirezionale e di fusione temporale risolvono il disallineamento spaziotemporale. I risultati sperimentali su due dataset su larga scala dimostrano che il nostro framework supera significativamente gli approcci più avanzati per la segmentazione semantica RGB-Event. Il nostro codice è disponibile all'indirizzo: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great
potential in various computer vision tasks. However, RGB-Event fusion faces
three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal
misalignment. Existing voxel grid representations neglect temporal correlations
between consecutive event windows, and their formulation with simple
accumulation of asynchronous and sparse events is incompatible with the
synchronous and dense nature of RGB modality. To tackle these challenges, we
propose a novel event representation, Motion-enhanced Event Tensor (MET), which
transforms sparse event voxels into a dense and temporally coherent form by
leveraging dense optical flows and event temporal features. In addition, we
introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a
Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to
mitigate modal misalignment, while bidirectional flow aggregation and temporal
fusion mechanisms resolve spatiotemporal misalignment. Experimental results on
two large-scale datasets demonstrate that our framework significantly
outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our
code is available at: https://github.com/zyaocoder/BRENet.