AuralSAM2: Habilitando la audición de SAM2 mediante el prompting piramidal de características audiovisuales

Resumen

El Modelo de Segmentación Universal 2 (SAM2) presenta una fuerte capacidad de generalización para la segmentación mediante indicaciones en clips de video; sin embargo, su integración con la modalidad de audio sigue poco explorada. Los enfoques existentes convierten el audio en indicaciones visuales (por ejemplo, cuadros delimitadores) a través de modelos fundacionales, o insertan adaptadores en el codificador de imagen para la fusión audiovisual. No obstante, ambas direcciones resultan insuficientes en escenarios de intervención humana debido a la precisión limitada de las indicaciones y al aumento de la sobrecarga de inferencia. En particular, estos métodos basados en adaptadores suelen sufrir de dilución de la indicación de audio, donde la señal se debilita gradualmente a medida que se propaga por la red. En este trabajo, proponemos AuralSAM2, que integra audio en SAM2 preservando en gran medida su capacidad de segmentación basada en indicaciones. Su módulo central, AuralFuser, fusiona características de audio y visuales para generar indicaciones dispersas y densas. Guiadas por el audio y basadas en la pirámide de características de SAM2, estas indicaciones propagan señales auditivas a través de las capas visuales, reforzando la influencia entre modalidades. Para alinear aún más las modalidades, introducimos una pérdida contrastiva guiada por audio que enfatiza la relevancia auditiva en las características visuales dominantes. Nuestro método logra mejoras notables en precisión en puntos de referencia públicos con un impacto mínimo en la eficiencia interactiva de la segmentación basada en indicaciones. Nuestro código está disponible en https://github.com/yyliu01/AuralSAM2.

English

Segment Anything Model 2 (SAM2) exhibits strong generalisation for promptable segmentation in video clips; however, its integration with the audio modality remains underexplored. Existing approaches either convert audio into visual prompts (e.g., boxes) via foundation models, or inject adapters into the image encoder for audio-visual fusion. Yet both directions fall short in human-in-the-loop scenarios due to limited prompt accuracy and increased inference overhead. In particular, these adapter-based methods often suffer from audio prompt dilution, where the signal gradually weakens as it propagates through the network. In this work, we propose AuralSAM2, which integrates audio into SAM2 while largely preserving its promptable segmentation capability. Its core module, AuralFuser, fuses audio and visual features to generate sparse and dense prompts. Guided by audio and built upon SAM2's feature pyramid, these prompts propagate auditory cues across visual layers, reinforcing cross-modal influence. To further align modalities, we introduce an audio-guided contrastive loss that emphasises auditory relevance in dominant visual features. Our method achieves notable accuracy gains on public benchmarks with only minimal impact on the interactive efficiency of promptable segmentation. Our code is available at https://github.com/yyliu01/AuralSAM2.