Fusione Audio-Spaziotemporale con Pesatura Adattiva delle Evidenze

Abstract

Molti sistemi di apprendimento automatico hanno accesso a fonti multiple di evidenza per lo stesso obiettivo predittivo, tuttavia queste fonti spesso differiscono in affidabilità e informatività tra i diversi input. Nella classificazione bioacustica, l'identità della specie può essere dedotta sia dal segnale acustico che dal contesto spaziotemporale come localizzazione e stagione; sebbene l'inferenza bayesiana motivi una combinazione moltiplicativa delle evidenze, in pratica di solito disponiamo solo di predittori discriminativi piuttosto che di modelli generativi calibrati. Introduciamo Fusion under INdependent Conditional Hypotheses (FINCH), un framework adattivo di fusione delle evidenze log-lineare che integra un classificatore audio pre-addestrato con un predittore spaziotemporale strutturato. FINCH apprende una funzione di gating per campione che stima l'affidabilità dell'informazione contestuale da statistiche di incertezza e informatività. La famiglia di fusione risultante contiene il classificatore solo-audio come caso speciale e delimita esplicitamente l'influenza dell'evidenza contestuale, producendo una classe di ipotesi a rischio contenuto con un fallback interpretabile basato sul solo audio. Su diversi benchmark, FINCH supera costantemente la fusione a pesi fissi e i baseline solo-audio, migliorando robustezza e compromessi di errore anche quando l'informazione contestuale è debole isolatamente. Raggiungiamo prestazioni state-of-the-art su CBI e prestazioni competitive o migliorate su diversi sottoinsiemi di BirdSet utilizzando un approccio leggero, interpretabile e basato sull'evidenza. Il codice è disponibile: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{repository-anonimo}}

English

Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}

Fusione Audio-Spaziotemporale con Pesatura Adattiva delle Evidenze

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

Abstract

Support