AVESFormer: Efficiënte Transformer-architectuur voor Real-time Audio-Visuele Segmentatie

Samenvatting

Onlangs hebben transformer-gebaseerde modellen opmerkelijke prestaties getoond bij audio-visuele segmentatie (AVS) taken. Hun hoge rekenkosten maken echter real-time inferentie onpraktisch. Door de aandachtkaarten van het netwerk te karakteriseren, identificeren we twee belangrijke obstakels in AVS-modellen: 1) aandachtverspreiding, wat overeenkomt met de overmatig geconcentreerde aandachtgewichten door Softmax binnen beperkte frames, en 2) een inefficiënte, belastende transformer-decoder, veroorzaakt door smalle focuspatronen in de vroege fasen. In dit artikel introduceren we AVESFormer, de eerste real-time Audio-Visuele Efficiënte Segmentatie transformer die snel, efficiënt en lichtgewicht is. Ons model maakt gebruik van een efficiënte prompt query generator om het gedrag van cross-attention te corrigeren. Daarnaast stellen we de ELF-decoder voor om grotere efficiëntie te bereiken door convoluties die geschikt zijn voor lokale kenmerken te faciliteren, waardoor de rekenlast wordt verminderd. Uitgebreide experimenten tonen aan dat onze AVESFormer de modelprestaties aanzienlijk verbetert, met scores van 79,9% op S4, 57,9% op MS3 en 31,2% op AVSS, wat de vorige state-of-the-art overtreft en een uitstekende balans tussen prestaties en snelheid bereikt. De code is te vinden op https://github.com/MarkXCloud/AVESFormer.git.

English

Recently, transformer-based models have demonstrated remarkable performance on audio-visual segmentation (AVS) tasks. However, their expensive computational cost makes real-time inference impractical. By characterizing attention maps of the network, we identify two key obstacles in AVS models: 1) attention dissipation, corresponding to the over-concentrated attention weights by Softmax within restricted frames, and 2) inefficient, burdensome transformer decoder, caused by narrow focus patterns in early stages. In this paper, we introduce AVESFormer, the first real-time Audio-Visual Efficient Segmentation transformer that achieves fast, efficient and light-weight simultaneously. Our model leverages an efficient prompt query generator to correct the behaviour of cross-attention. Additionally, we propose ELF decoder to bring greater efficiency by facilitating convolutions suitable for local features to reduce computational burdens. Extensive experiments demonstrate that our AVESFormer significantly enhances model performance, achieving 79.9% on S4, 57.9% on MS3 and 31.2% on AVSS, outperforming previous state-of-the-art and achieving an excellent trade-off between performance and speed. Code can be found at https://github.com/MarkXCloud/AVESFormer.git.

AVESFormer: Efficiënte Transformer-architectuur voor Real-time Audio-Visuele Segmentatie

AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation

Samenvatting

Support