Sé lo que no sé: Modelos de factores posteriores latentes para el razonamiento probabilístico con múltiples evidencias

Resumen

La toma de decisiones en el mundo real, desde la evaluación del cumplimiento fiscal hasta el diagnóstico médico, requiere la agregación de múltiples fuentes de evidencia ruidosas y potencialmente contradictorias. Los enfoques existentes carecen de una cuantificación explícita de la incertidumbre (métodos de agregación neuronal) o dependen de predicados discretos diseñados manualmente (marcos de lógica probabilística), lo que limita la escalabilidad para datos no estructurados. Presentamos Factores Posteriores Latentes (LPF), un marco que transforma las posteriores latentes de un Autoencoder Variacional (VAE) en factores de verosimilitud blandos para la inferencia en Redes de Suma-Producto (SPN), permitiendo un razonamiento probabilístico manejable sobre evidencia no estructurada mientras preserva estimaciones de incertidumbre calibradas. Instanciamos LPF como LPF-SPN (inferencia estructurada basada en factores) y LPF-Learned (agregación aprendida de extremo a extremo), permitiendo una comparación rigurosa entre el razonamiento probabilístico explícito y la agregación aprendida bajo una representación compartida de la incertidumbre. En ocho dominios (siete sintéticos y el benchmark FEVER), LPF-SPN logra una alta precisión (hasta 97.8%), un bajo error de calibración (ECE 1.4%) y un fuerte ajuste probabilístico, superando sustancialmente al aprendizaje profundo evidencial, los LLM y líneas base basadas en grafos sobre 15 semillas aleatorias. Contribuciones: (1) Un marco que conecta las representaciones de incertidumbre latente con el razonamiento probabilístico estructurado. (2) Arquitecturas duales que permiten la comparación controlada de paradigmas de razonamiento. (3) Metodología de entrenamiento reproducible con selección de semillas. (4) Evaluación frente a líneas base de EDL, BERT, R-GCN y modelos de lenguaje grandes. (5) Validación cruzada de dominios. (6) Garantías formales en un artículo complementario.

English

Real-world decision-making, from tax compliance assessment to medical diagnosis, requires aggregating multiple noisy and potentially contradictory evidence sources. Existing approaches either lack explicit uncertainty quantification (neural aggregation methods) or rely on manually engineered discrete predicates (probabilistic logic frameworks), limiting scalability to unstructured data. We introduce Latent Posterior Factors (LPF), a framework that transforms Variational Autoencoder (VAE) latent posteriors into soft likelihood factors for Sum-Product Network (SPN) inference, enabling tractable probabilistic reasoning over unstructured evidence while preserving calibrated uncertainty estimates. We instantiate LPF as LPF-SPN (structured factor-based inference) and LPF-Learned (end-to-end learned aggregation), enabling a principled comparison between explicit probabilistic reasoning and learned aggregation under a shared uncertainty representation. Across eight domains (seven synthetic and the FEVER benchmark), LPF-SPN achieves high accuracy (up to 97.8%), low calibration error (ECE 1.4%), and strong probabilistic fit, substantially outperforming evidential deep learning, LLMs and graph-based baselines over 15 random seeds. Contributions: (1) A framework bridging latent uncertainty representations with structured probabilistic reasoning. (2) Dual architectures enabling controlled comparison of reasoning paradigms. (3) Reproducible training methodology with seed selection. (4) Evaluation against EDL, BERT, R-GCN, and large language model baselines. (5) Cross-domain validation. (6) Formal guarantees in a companion paper.

Sé lo que no sé: Modelos de factores posteriores latentes para el razonamiento probabilístico con múltiples evidencias

I Know What I Don't Know: Latent Posterior Factor Models for Multi-Evidence Probabilistic Reasoning

Resumen

Support