ChatPaper.aiChatPaper

Adaptive Evidenzgewichtung für audio-spatiotemporale Fusion

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

February 3, 2026
papers.authors: Oscar Ovanger, Levi Harris, Timothy H. Keitt
cs.AI

papers.abstract

Viele maschinelle Lernsysteme haben Zugang zu mehrere Evidenzquellen für dasselbe Vorhersageziel, doch diese Quellen unterscheiden sich oft in ihrer Zuverlässigkeit und Informativität zwischen verschiedenen Eingaben. In der bioakustischen Klassifikation kann die Artenidentität sowohl aus dem akustischen Signal als auch aus dem räumlich-zeitlichen Kontext wie Standort und Jahreszeit abgeleitet werden; während die Bayes'sche Inferenz eine multiplikative Evidenzkombination nahelegt, haben wir in der Praxis typischerweise nur Zugang zu diskriminativen Prädiktoren anstatt zu kalibrierten generativen Modellen. Wir stellen Fusion under INdependent Conditional Hypotheses (FINCH) vor, ein adaptives log-lineares Evidenzfusions-Framework, das einen vortrainierten Audio-Klassifikator mit einem strukturierten räumlich-zeitlichen Prädiktor integriert. FINCH erlernt eine pro-Stichprobe Gating-Funktion, die die Zuverlässigkeit kontextueller Informationen aus Unsicherheits- und Informativitätsstatistiken schätzt. Die resultierende Fusionsfamilie enthält den reinen Audio-Klassifikator als Spezialfall und begrenzt explizit den Einfluss kontextueller Evidenz, was zu einer risikobegrenzten Hypothesenklasse mit einem interpretierbaren Audio-Fallback führt. In Benchmarks übertrifft FINCH konsistent Festgewichts-Fusion und reine Audio-Baselines, verbessert die Robustheit und Fehlerkompromisse selbst dann, wenn kontextuelle Informationen isoliert betrachtet schwach sind. Wir erreichen state-of-the-art Leistung auf CBI und wettbewerbsfähige oder verbesserte Leistung auf mehreren Teilmengen von BirdSet mit einem leichtgewichtigen, interpretierbaren, evidenzbasierten Ansatz. Code ist verfügbar: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}
English
Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}
PDF01February 5, 2026