Pondération adaptative des preuves pour la fusion audio-spatiotemporelle
Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion
February 3, 2026
papers.authors: Oscar Ovanger, Levi Harris, Timothy H. Keitt
cs.AI
papers.abstract
De nombreux systèmes d'apprentissage automatique ont accès à plusieurs sources de preuves pour la même cible de prédiction, mais ces sources diffèrent souvent en fiabilité et en contenu informationnel selon les entrées. Dans la classification bioacoustique, l'identité d'une espèce peut être inférée à la fois à partir du signal acoustique et du contexte spatio-temporel tel que la localisation et la saison ; bien que l'inférence bayésienne motive une combinaison multiplicative des preuves, en pratique nous n'avons généralement accès qu'à des prédicteurs discriminatifs plutôt qu'à des modèles génératifs calibrés. Nous présentons Fusion sous Hypothèses Conditionnelles Indépendantes (FINCH), un cadre d'intégration de preuves log-linéaire adaptatif qui combine un classifieur audio pré-entraîné avec un prédicteur spatio-temporel structuré. FINCH apprend une fonction d'activation par échantillon qui estime la fiabilité de l'information contextuelle à partir de statistiques d'incertitude et de contenu informationnel. La famille de fusion résultante contient le classifieur audio seul comme cas particulier et borne explicitement l'influence des preuves contextuelles, produisant une classe d'hypothèses à risque contrôlé avec une solution de repli interprétable basée uniquement sur l'audio. Sur divers benchmarks, FINCH surpasse systématiquement la fusion à poids fixes et les modèles de référence audio seuls, améliorant la robustesse et les compromis d'erreur même lorsque l'information contextuelle est faible isolément. Nous obtenons des performances à l'état de l'art sur CBI et des performances compétitives ou améliorées sur plusieurs sous-ensembles de BirdSet en utilisant une approche légère, interprétable et fondée sur les preuves. Le code est disponible : \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{dépôt-anonyme}
English
Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}