ChatPaper.aiChatPaper

Ponderación Adaptativa de Evidencias para la Fusión Audio-Espaciotemporal

Adaptive Evidence Weighting for Audio-Spatiotemporal Fusion

February 3, 2026
Autores: Oscar Ovanger, Levi Harris, Timothy H. Keitt
cs.AI

Resumen

Muchos sistemas de aprendizaje automático tienen acceso a múltiples fuentes de evidencia para un mismo objetivo de predicción; sin embargo, estas fuentes suelen diferir en fiabilidad e informatividad entre distintas entradas. En la clasificación bioacústica, la identidad de la especie puede inferirse tanto a partir de la señal acústica como del contexto espacio-temporal, como la ubicación y la estación del año; aunque la inferencia bayesiana justifica una combinación multiplicativa de evidencias, en la práctica normalmente solo disponemos de predictores discriminativos en lugar de modelos generativos calibrados. Presentamos Fusión bajo Hipótesis Condicionales Independientes (FINCH), un marco de fusión de evidencias log-lineal adaptable que integra un clasificador de audio preentrenado con un predictor espacio-temporal estructurado. FINCH aprende una función de compuerta por muestra que estima la fiabilidad de la información contextual a partir de estadísticas de incertidumbre e informatividad. La familia de fusión resultante contiene al clasificador que solo usa audio como caso especial y acota explícitamente la influencia de la evidencia contextual, dando lugar a una clase de hipótesis con riesgo contenido y con un respaldo interpretable basado únicamente en audio. En diversos puntos de referencia, FINCH supera consistentemente a la fusión de pesos fijos y a las líneas base que solo utilizan audio, mejorando la robustez y las compensaciones de error incluso cuando la información contextual es débil de forma aislada. Logramos un rendimiento de vanguardia en CBI y un rendimiento competitivo o mejorado en varios subconjuntos de BirdSet utilizando un enfoque liviano, interpretable y basado en evidencias. El código está disponible en: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{repositorio-anónimo}.
English
Many machine learning systems have access to multiple sources of evidence for the same prediction target, yet these sources often differ in reliability and informativeness across inputs. In bioacoustic classification, species identity may be inferred both from the acoustic signal and from spatiotemporal context such as location and season; while Bayesian inference motivates multiplicative evidence combination, in practice we typically only have access to discriminative predictors rather than calibrated generative models. We introduce Fusion under INdependent Conditional Hypotheses (FINCH), an adaptive log-linear evidence fusion framework that integrates a pre-trained audio classifier with a structured spatiotemporal predictor. FINCH learns a per-sample gating function that estimates the reliability of contextual information from uncertainty and informativeness statistics. The resulting fusion family contains the audio-only classifier as a special case and explicitly bounds the influence of contextual evidence, yielding a risk-contained hypothesis class with an interpretable audio-only fallback. Across benchmarks, FINCH consistently outperforms fixed-weight fusion and audio-only baselines, improving robustness and error trade-offs even when contextual information is weak in isolation. We achieve state-of-the-art performance on CBI and competitive or improved performance on several subsets of BirdSet using a lightweight, interpretable, evidence-based approach. Code is available: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}
PDF01February 5, 2026