ChatPaper.aiChatPaper

오디오-시공간 융합을 위한 적응형 증거 가중

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

February 3, 2026
저자: Oscar Ovanger, Levi Harris, Timothy H. Keitt
cs.AI

초록

많은 기계 학습 시스템은 동일한 예측 대상에 대해 여러 증거 원천에 접근할 수 있지만, 이러한 원천들은 종종 입력값에 따라 신뢰도와 정보성에서 차이를 보입니다. 생물음향 분류에서 종 동정은 음향 신호와 위치 및 계절과 같은 시공간적 맥락 모두에서 추론될 수 있습니다. 베이지안 추론은 증거의 승산 결합을 이론적으로 뒷받침하지만, 실제로는 보정된 생성 모델보다는 판별 예측 모델만 접근 가능한 경우가 일반적입니다. 본 연구에서는 사전 훈련된 오디오 분류기와 구조화된 시공간 예측기를 통합하는 적응형 로그-선형 증거 융합 프레임워크인 FINCH(Fusion under INdependent Conditional Hypotheses)를 소개합니다. FINCH는 불확실성과 정보성 통계량으로부터 맥락 정보의 신뢰도를 추정하는 샘플별 게이팅 함수를 학습합니다. 그 결과 도출된 융합 패밀리는 오디오 단독 분류기를 특수한 경우로 포함하며, 맥락 증거의 영향을 명시적으로 제한하여 해석 가능한 오디오 단독 폴백(fallback)을 갖는 위험 제어 가설 클래스를 제공합니다. 다양한 벤치마크에서 FINCH는 고정 가중치 융합 및 오디오 단독 기준 모델을 지속적으로 능가하며, 맥락 정보가 단독으로는 약할 때에도 견고성과 오류 트레이드오프를 개선했습니다. 우리는 경량이며 해석 가능한 증거 기반 접근법을 통해 CBI에서 최첨단 성능을 달성하고 BirdSet의 여러 하위 집합에서 경쟁력 있거나 향상된 성능을 얻었습니다. 코드 이용 가능: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{익명-저장소}}
English
Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}
PDF01February 5, 2026