Replanteando la segmentación semántica RGB-Eventos con una nueva representación de eventos mejorada por movimiento bidireccional
Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
May 2, 2025
Autores: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI
Resumen
Las cámaras de eventos capturan la dinámica del movimiento, ofreciendo una modalidad única con gran potencial en diversas tareas de visión por computadora. Sin embargo, la fusión RGB-Evento enfrenta tres desalineaciones intrínsecas: (i) temporal, (ii) espacial y (iii) modal. Las representaciones existentes de grillas de vóxeles ignoran las correlaciones temporales entre ventanas consecutivas de eventos, y su formulación con una simple acumulación de eventos asíncronos y dispersos es incompatible con la naturaleza síncrona y densa de la modalidad RGB. Para abordar estos desafíos, proponemos una nueva representación de eventos, el Tensor de Eventos Mejorado por Movimiento (MET, por sus siglas en inglés), que transforma los vóxeles dispersos de eventos en una forma densa y temporalmente coherente aprovechando los flujos ópticos densos y las características temporales de los eventos. Además, introducimos un Módulo de Agregación de Flujo Bidireccional Consciente de la Frecuencia (BFAM, por sus siglas en inglés) y un Módulo de Fusión Temporal (TFM, por sus siglas en inglés). El BFAM aprovecha el dominio de la frecuencia y el MET para mitigar la desalineación modal, mientras que los mecanismos de agregación de flujo bidireccional y fusión temporal resuelven la desalineación espacio-temporal. Los resultados experimentales en dos conjuntos de datos a gran escala demuestran que nuestro marco supera significativamente a los enfoques de segmentación semántica RGB-Evento más avanzados. Nuestro código está disponible en: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great
potential in various computer vision tasks. However, RGB-Event fusion faces
three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal
misalignment. Existing voxel grid representations neglect temporal correlations
between consecutive event windows, and their formulation with simple
accumulation of asynchronous and sparse events is incompatible with the
synchronous and dense nature of RGB modality. To tackle these challenges, we
propose a novel event representation, Motion-enhanced Event Tensor (MET), which
transforms sparse event voxels into a dense and temporally coherent form by
leveraging dense optical flows and event temporal features. In addition, we
introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a
Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to
mitigate modal misalignment, while bidirectional flow aggregation and temporal
fusion mechanisms resolve spatiotemporal misalignment. Experimental results on
two large-scale datasets demonstrate that our framework significantly
outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our
code is available at: https://github.com/zyaocoder/BRENet.