ChatPaper.aiChatPaper

Repensando a Segmentação Semântica RGB-Evento com uma Nova Representação de Eventos Aprimorada por Movimento Bidirecional

Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2, 2025
Autores: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI

Resumo

Câmeras de eventos capturam dinâmicas de movimento, oferecendo uma modalidade única com grande potencial em diversas tarefas de visão computacional. No entanto, a fusão RGB-Evento enfrenta três desalinhamentos intrínsecos: (i) temporal, (ii) espacial e (iii) modal. As representações existentes em grade de voxels negligenciam as correlações temporais entre janelas consecutivas de eventos, e sua formulação com a simples acumulação de eventos assíncronos e esparsos é incompatível com a natureza síncrona e densa da modalidade RGB. Para enfrentar esses desafios, propomos uma nova representação de eventos, o Tensor de Eventos Aprimorado por Movimento (MET, na sigla em inglês), que transforma voxels de eventos esparsos em uma forma densa e temporalmente coerente, aproveitando fluxos ópticos densos e características temporais dos eventos. Além disso, introduzimos um Módulo de Agregação de Fluxo Bidirecional com Consciência de Frequência (BFAM) e um Módulo de Fusão Temporal (TFM). O BFAM aproveita o domínio da frequência e o MET para mitigar o desalinhamento modal, enquanto os mecanismos de agregação de fluxo bidirecional e fusão temporal resolvem o desalinhamento espaço-temporal. Resultados experimentais em dois conjuntos de dados em larga escala demonstram que nosso framework supera significativamente as abordagens state-of-the-art em segmentação semântica RGB-Evento. Nosso código está disponível em: https://github.com/zyaocoder/BRENet.
English
Event cameras capture motion dynamics, offering a unique modality with great potential in various computer vision tasks. However, RGB-Event fusion faces three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal misalignment. Existing voxel grid representations neglect temporal correlations between consecutive event windows, and their formulation with simple accumulation of asynchronous and sparse events is incompatible with the synchronous and dense nature of RGB modality. To tackle these challenges, we propose a novel event representation, Motion-enhanced Event Tensor (MET), which transforms sparse event voxels into a dense and temporally coherent form by leveraging dense optical flows and event temporal features. In addition, we introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to mitigate modal misalignment, while bidirectional flow aggregation and temporal fusion mechanisms resolve spatiotemporal misalignment. Experimental results on two large-scale datasets demonstrate that our framework significantly outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our code is available at: https://github.com/zyaocoder/BRENet.
PDF11May 6, 2025