音声・時空間融合のための適応的証拠重み付け
Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion
February 3, 2026
著者: Oscar Ovanger, Levi Harris, Timothy H. Keitt
cs.AI
要旨
多くの機械学習システムは、同じ予測対象に対して複数の証拠源にアクセスできるが、これらの情報源は入力ごとに信頼性や情報量が異なることが多い。生物音響分類においては、種の同定を音響信号から推論できるだけでなく、位置や季節といった時空間的文脈からも推論可能である。ベイズ推論は証拠の乗法的結合を動機づけるが、実際には較正された生成モデルではなく識別的な予測器のみが利用可能な場合がほとんどである。本論文では、Fusion under INdependent Conditional Hypotheses (FINCH) を提案する。これは、事前学習済みの音響分類器と構造化された時空間予測器を統合する適応的対数線形証拠融合フレームワークである。FINCHは、不確実性と情報量の統計量から文脈情報の信頼性を推定するサンプル単位のゲーティング関数を学習する。結果として得られる融合ファミリーは、音響のみの分類器を特殊ケースとして包含し、文脈的証拠の影響を明示的に制限することで、解釈可能な音響のみのフォールバックを持つリスク抑制仮説クラスを実現する。各種ベンチマークにおいて、FINCHは固定重み融合や音響のみのベースラインを一貫して上回り、文脈情報が単体では弱い場合でも堅牢性と誤りトレードオフを改善した。軽量で解釈可能な証拠ベースのアプローチにより、CBIでは state-of-the-art 性能を達成し、BirdSetの複数のサブセットでは競合あるいは改善された性能を実現した。コードは以下で公開されている:\href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{匿名リポジトリ}}
English
Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}