Ponderação Adaptativa de Evidências para Fusão Áudio-Espaciotemporal

Resumo

Muitos sistemas de aprendizado de máquina têm acesso a múltiplas fontes de evidência para o mesmo alvo de predição, mas essas fontes frequentemente diferem em confiabilidade e informatividade entre as entradas. Na classificação bioacústica, a identidade da espécie pode ser inferida tanto a partir do sinal acústico quanto do contexto espaço-temporal, como localização e estação do ano; embora a inferência bayesiana motive a combinação multiplicativa de evidências, na prática geralmente temos acesso apenas a preditores discriminativos em vez de modelos generativos calibrados. Apresentamos o Fusion under INdependent Conditional Hypotheses (FINCH), uma estrutura adaptativa de fusão de evidências log-linear que integra um classificador de áudio pré-treinado com um preditor espaço-temporal estruturado. O FINCH aprende uma função de gateamento por amostra que estima a confiabilidade da informação contextual a partir de estatísticas de incerteza e informatividade. A família de fusão resultante contém o classificador apenas de áudio como um caso especial e limita explicitamente a influência da evidência contextual, produzindo uma classe de hipóteses com risco contido e um fallback interpretável apenas de áudio. Em benchmarks, o FINCH supera consistentemente a fusão de pesos fixos e as linhas de base apenas de áudio, melhorando a robustez e os trade-offs de erro mesmo quando a informação contextual é fraca isoladamente. Alcançamos desempenho de última geração no CBI e desempenho competitivo ou melhorado em vários subconjuntos do BirdSet usando uma abordagem leve, interpretável e baseada em evidências. Código disponível: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{repositório-anônimo}}

English

Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}

Ponderação Adaptativa de Evidências para Fusão Áudio-Espaciotemporal

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

Resumo

Support