AVESFormer: Efficiënte Transformer-architectuur voor Real-time Audio-Visuele Segmentatie
AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation
August 3, 2024
Auteurs: Zili Wang, Qi Yang, Linsu Shi, Jiazhong Yu, Qinghua Liang, Fei Li, Shiming Xiang
cs.AI
Samenvatting
Onlangs hebben transformer-gebaseerde modellen opmerkelijke prestaties getoond bij audio-visuele segmentatie (AVS) taken. Hun hoge rekenkosten maken echter real-time inferentie onpraktisch. Door de aandachtkaarten van het netwerk te karakteriseren, identificeren we twee belangrijke obstakels in AVS-modellen: 1) aandachtverspreiding, wat overeenkomt met de overmatig geconcentreerde aandachtgewichten door Softmax binnen beperkte frames, en 2) een inefficiënte, belastende transformer-decoder, veroorzaakt door smalle focuspatronen in de vroege fasen. In dit artikel introduceren we AVESFormer, de eerste real-time Audio-Visuele Efficiënte Segmentatie transformer die snel, efficiënt en lichtgewicht is. Ons model maakt gebruik van een efficiënte prompt query generator om het gedrag van cross-attention te corrigeren. Daarnaast stellen we de ELF-decoder voor om grotere efficiëntie te bereiken door convoluties die geschikt zijn voor lokale kenmerken te faciliteren, waardoor de rekenlast wordt verminderd. Uitgebreide experimenten tonen aan dat onze AVESFormer de modelprestaties aanzienlijk verbetert, met scores van 79,9% op S4, 57,9% op MS3 en 31,2% op AVSS, wat de vorige state-of-the-art overtreft en een uitstekende balans tussen prestaties en snelheid bereikt. De code is te vinden op https://github.com/MarkXCloud/AVESFormer.git.
English
Recently, transformer-based models have demonstrated remarkable performance
on audio-visual segmentation (AVS) tasks. However, their expensive
computational cost makes real-time inference impractical. By characterizing
attention maps of the network, we identify two key obstacles in AVS models: 1)
attention dissipation, corresponding to the over-concentrated attention weights
by Softmax within restricted frames, and 2) inefficient, burdensome transformer
decoder, caused by narrow focus patterns in early stages. In this paper, we
introduce AVESFormer, the first real-time Audio-Visual Efficient Segmentation
transformer that achieves fast, efficient and light-weight simultaneously. Our
model leverages an efficient prompt query generator to correct the behaviour of
cross-attention. Additionally, we propose ELF decoder to bring greater
efficiency by facilitating convolutions suitable for local features to reduce
computational burdens. Extensive experiments demonstrate that our AVESFormer
significantly enhances model performance, achieving 79.9% on S4, 57.9% on MS3
and 31.2% on AVSS, outperforming previous state-of-the-art and achieving an
excellent trade-off between performance and speed. Code can be found at
https://github.com/MarkXCloud/AVESFormer.git.