AuralSAM2: Capacitando o SAM2 a Ouvir Através de Prompting Piramidal de Características Audiovisuais

Resumo

O Modelo Segment Anything 2 (SAM2) apresenta forte generalização para segmentação orientável em clipes de vídeo; no entanto, sua integração com a modalidade de áudio permanece pouco explorada. Abordagens existentes ou convertem áudio em prompts visuais (e.g., caixas delimitadoras) por meio de modelos fundacionais, ou injetam adaptadores no codificador de imagem para fusão audiovisual. No entanto, ambas as direções são insuficientes em cenários com intervenção humana devido à precisão limitada dos prompts e ao aumento da sobrecarga de inferência. Em particular, esses métodos baseados em adaptadores frequentemente sofrem de diluição do prompt de áudio, onde o sinal enfraquece gradualmente à medida que se propaga pela rede. Neste trabalho, propomos o AuralSAM2, que integra áudio ao SAM2 enquanto preserva amplamente sua capacidade de segmentação orientável. Seu módulo central, o AuralFuser, funde características de áudio e visuais para gerar prompts esparsos e densos. Guiados pelo áudio e construídos sobre a pirâmide de características do SAM2, esses prompts propagam pistas auditivas pelas camadas visuais, reforçando a influência entre modalidades. Para alinhar ainda mais as modalidades, introduzimos uma perda contrastiva guiada por áudio que enfatiza a relevância auditiva nas características visuais dominantes. Nosso método alcança ganhos notáveis de precisão em benchmarks públicos com impacto mínimo na eficiência interativa da segmentação orientável. Nosso código está disponível em https://github.com/yyliu01/AuralSAM2.

English

Segment Anything Model 2 (SAM2) exhibits strong generalisation for promptable segmentation in video clips; however, its integration with the audio modality remains underexplored. Existing approaches either convert audio into visual prompts (e.g., boxes) via foundation models, or inject adapters into the image encoder for audio-visual fusion. Yet both directions fall short in human-in-the-loop scenarios due to limited prompt accuracy and increased inference overhead. In particular, these adapter-based methods often suffer from audio prompt dilution, where the signal gradually weakens as it propagates through the network. In this work, we propose AuralSAM2, which integrates audio into SAM2 while largely preserving its promptable segmentation capability. Its core module, AuralFuser, fuses audio and visual features to generate sparse and dense prompts. Guided by audio and built upon SAM2's feature pyramid, these prompts propagate auditory cues across visual layers, reinforcing cross-modal influence. To further align modalities, we introduce an audio-guided contrastive loss that emphasises auditory relevance in dominant visual features. Our method achieves notable accuracy gains on public benchmarks with only minimal impact on the interactive efficiency of promptable segmentation. Our code is available at https://github.com/yyliu01/AuralSAM2.