Je sais ce que je ne sais pas : Modèles factoriels à postérieur latent pour le raisonnement probabiliste multi-preuve

Résumé

La prise de décision dans le monde réel, de l'évaluation de la conformité fiscale au diagnostic médical, nécessite d'agréger de multiples sources de preuves bruitées et potentiellement contradictoires. Les approches existantes manquent soit de quantification explicite de l'incertitude (méthodes d'agrégation neuronales), soit reposent sur des prédicats discrets conçus manuellement (cadres de logique probabiliste), limitant leur extensibilité aux données non structurées. Nous présentons Latent Posterior Factors (LPF), un cadre qui transforme les postérieures latentes des Autoencodeurs Variationnels (VAE) en facteurs de vraisemblance souples pour l'inférence dans les Sum-Product Networks (SPN), permettant un raisonnement probabiliste traitable sur des preuves non structurées tout en préservant des estimations d'incertitude calibrées. Nous instancions LPF sous deux formes : LPF-SPN (inférence structurée basée sur des facteurs) et LPF-Learned (agrégation apprise de bout en bout), permettant une comparaison rigoureuse entre le raisonnement probabiliste explicite et l'agrégation apprise sous une représentation commune de l'incertitude. Sur huit domaines (sept synthétiques et le benchmark FEVER), LPF-SPN atteint une haute précision (jusqu'à 97,8 %), une faible erreur de calibration (ECE 1,4 %) et un fort ajustement probabiliste, surpassant substantiellement l'apprentissage profond évidentiel, les LLM et les modèles de référence à base de graphes sur 15 initialisations aléatoires. Contributions : (1) Un cadre reliant les représentations latentes de l'incertitude au raisonnement probabiliste structuré. (2) Des architectures duales permettant une comparaison contrôlée des paradigmes de raisonnement. (3) Une méthodologie d'entraînement reproductible avec sélection d'initialisation. (4) Évaluation contre l'apprentissage profond évidentiel, BERT, R-GCN et des modèles de référence de grands langages. (5) Validation transdomaine. (6) Garanties formelles dans un article compagnon.

English

Real-world decision-making, from tax compliance assessment to medical diagnosis, requires aggregating multiple noisy and potentially contradictory evidence sources. Existing approaches either lack explicit uncertainty quantification (neural aggregation methods) or rely on manually engineered discrete predicates (probabilistic logic frameworks), limiting scalability to unstructured data. We introduce Latent Posterior Factors (LPF), a framework that transforms Variational Autoencoder (VAE) latent posteriors into soft likelihood factors for Sum-Product Network (SPN) inference, enabling tractable probabilistic reasoning over unstructured evidence while preserving calibrated uncertainty estimates. We instantiate LPF as LPF-SPN (structured factor-based inference) and LPF-Learned (end-to-end learned aggregation), enabling a principled comparison between explicit probabilistic reasoning and learned aggregation under a shared uncertainty representation. Across eight domains (seven synthetic and the FEVER benchmark), LPF-SPN achieves high accuracy (up to 97.8%), low calibration error (ECE 1.4%), and strong probabilistic fit, substantially outperforming evidential deep learning, LLMs and graph-based baselines over 15 random seeds. Contributions: (1) A framework bridging latent uncertainty representations with structured probabilistic reasoning. (2) Dual architectures enabling controlled comparison of reasoning paradigms. (3) Reproducible training methodology with seed selection. (4) Evaluation against EDL, BERT, R-GCN, and large language model baselines. (5) Cross-domain validation. (6) Formal guarantees in a companion paper.

Je sais ce que je ne sais pas : Modèles factoriels à postérieur latent pour le raisonnement probabiliste multi-preuve

I Know What I Don't Know: Latent Posterior Factor Models for Multi-Evidence Probabilistic Reasoning

Résumé

Support