ChatPaper.aiChatPaper

RGB-이벤트 시맨틱 세그멘테이션 재고찰: 새로운 양방향 모션 강화 이벤트 표현

Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation

May 2, 2025
저자: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah
cs.AI

초록

이벤트 카메라는 동적 움직임을 포착하여 다양한 컴퓨터 비전 작업에서 큰 잠재력을 지닌 독특한 모달리티를 제공합니다. 그러나 RGB-이벤트 융합은 세 가지 본질적인 불일치 문제에 직면합니다: (i) 시간적, (ii) 공간적, 그리고 (iii) 모달리티 불일치입니다. 기존의 복셀 그리드 표현은 연속적인 이벤트 창 간의 시간적 상관관계를 무시하며, 비동기적이고 희소한 이벤트를 단순히 누적하는 방식은 동기적이고 밀집된 RGB 모달리티의 특성과 호환되지 않습니다. 이러한 문제를 해결하기 위해, 우리는 밀집된 광학 흐름과 이벤트 시간적 특징을 활용하여 희소한 이벤트 복셀을 밀집되고 시간적으로 일관된 형태로 변환하는 새로운 이벤트 표현인 Motion-enhanced Event Tensor (MET)를 제안합니다. 또한, 주파수 인식 양방향 흐름 집계 모듈(Frequency-aware Bidirectional Flow Aggregation Module, BFAM)과 시간적 융합 모듈(Temporal Fusion Module, TFM)을 도입했습니다. BFAM은 주파수 영역과 MET를 활용하여 모달리티 불일치를 완화하고, 양방향 흐름 집계 및 시간적 융합 메커니즘은 시공간적 불일치를 해결합니다. 두 대규모 데이터셋에서의 실험 결과는 우리의 프레임워크가 최신 RGB-이벤트 의미 분할 접근법을 크게 능가함을 보여줍니다. 우리의 코드는 https://github.com/zyaocoder/BRENet에서 확인할 수 있습니다.
English
Event cameras capture motion dynamics, offering a unique modality with great potential in various computer vision tasks. However, RGB-Event fusion faces three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal misalignment. Existing voxel grid representations neglect temporal correlations between consecutive event windows, and their formulation with simple accumulation of asynchronous and sparse events is incompatible with the synchronous and dense nature of RGB modality. To tackle these challenges, we propose a novel event representation, Motion-enhanced Event Tensor (MET), which transforms sparse event voxels into a dense and temporally coherent form by leveraging dense optical flows and event temporal features. In addition, we introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to mitigate modal misalignment, while bidirectional flow aggregation and temporal fusion mechanisms resolve spatiotemporal misalignment. Experimental results on two large-scale datasets demonstrate that our framework significantly outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our code is available at: https://github.com/zyaocoder/BRENet.

Summary

AI-Generated Summary

PDF11May 6, 2025