Адаптивное взвешивание свидетельств для аудио-пространственно-временного слияния
Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion
February 3, 2026
Авторы: Oscar Ovanger, Levi Harris, Timothy H. Keitt
cs.AI
Аннотация
Многие системы машинного обучения имеют доступ к нескольким источникам данных для одной и той же целевой переменной прогноза, однако эти источники часто различаются по надежности и информативности для разных входных данных. В биоакустической классификации идентичность вида может быть выведена как из акустического сигнала, так и из пространственно-временного контекста, такого как местоположение и сезон; в то время как байесовский вывод обосновывает мультипликативное объединение свидетельств, на практике мы обычно имеем доступ лишь к дискриминативным предикторам, а не к калиброванным генеративным моделям. Мы представляем Fusion under INdependent Conditional Hypotheses (FINCH) — адаптивную лог-линейную систему слияния данных, которая интегрирует предварительно обученный аудиоклассификатор со структурированным пространственно-временным предиктором. FINCH изучает зависящую от каждого примера функцию гейтирования, которая оценивает надежность контекстной информации на основе статистик неопределенности и информативности. Полученное семейство методов слияния включает классификатор, работающий только с аудиоданными, в качестве частного случая и явно ограничивает влияние контекстных данных, формируя гипотезный класс с контролируемым риском и интерпретируемым резервным режимом, основанным только на аудио. На различных тестовых наборах FINCH стабильно превосходит слияние с фиксированными весами и базовые модели, использующие только аудио, улучшая устойчивость и компромиссы ошибок даже в случаях, когда контекстная информация сама по себе слаба. Мы достигаем наилучших на сегодняшний день результатов на CBI и соревновательных или улучшенных результатов на нескольких подмножествах BirdSet, используя легковесный, интерпретируемый подход, основанный на объединении свидетельств. Код доступен: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{анонимный репозиторий}.
English
Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}