Eu Sei o Que Não Sei: Modelos de Fatores Posteriores Latentes para Raciocínio Probabilístico com Múltiplas Evidências

Resumo

A tomada de decisão no mundo real, desde a avaliação de conformidade fiscal até o diagnóstico médico, requer a agregação de múltiplas fontes de evidências ruidosas e potencialmente contraditórias. As abordagens existentes ou carecem de quantificação explícita de incerteza (métodos de agregação neurais) ou dependem de predicados discretos manualmente elaborados (estruturas de lógica probabilística), limitando a escalabilidade para dados não estruturados. Apresentamos os Fatores Posteriores Latentes (LPF), uma estrutura que transforma as posteriores latentes do *Variational Autoencoder* (VAE) em fatores de verossimilhança suaves para inferência em *Sum-Product Network* (SPN), permitindo um raciocínio probabilístico tratável sobre evidências não estruturadas, preservando estimativas de incerteza calibradas. Instanciamos o LPF como LPF-SPN (inferência estruturada baseada em fatores) e LPF-Learned (agregação aprendida de ponta a ponta), permitindo uma comparação fundamentada entre o raciocínio probabilístico explícito e a agregação aprendida sob uma representação de incerteza compartilhada. Em oito domínios (sete sintéticos e o benchmark FEVER), o LPF-SPN alcança alta precisão (até 97,8%), baixo erro de calibração (ECE 1,4%) e forte ajuste probabilístico, superando substancialmente a aprendizagem profunda evidencial, LLMs e *baselines* baseados em grafos ao longo de 15 sementes aleatórias. Contribuições: (1) Uma estrutura que liga representações de incerteza latente com raciocínio probabilístico estruturado. (2) Arquiteturas duais que permitem a comparação controlada de paradigmas de raciocínio. (3) Metodologia de treinamento reproduzível com seleção de sementes. (4) Avaliação contra *baselines* de EDL, BERT, R-GCN e modelos de linguagem grandes. (5) Validação transversal de domínios. (6) Garantias formais em um artigo complementar.

English

Real-world decision-making, from tax compliance assessment to medical diagnosis, requires aggregating multiple noisy and potentially contradictory evidence sources. Existing approaches either lack explicit uncertainty quantification (neural aggregation methods) or rely on manually engineered discrete predicates (probabilistic logic frameworks), limiting scalability to unstructured data. We introduce Latent Posterior Factors (LPF), a framework that transforms Variational Autoencoder (VAE) latent posteriors into soft likelihood factors for Sum-Product Network (SPN) inference, enabling tractable probabilistic reasoning over unstructured evidence while preserving calibrated uncertainty estimates. We instantiate LPF as LPF-SPN (structured factor-based inference) and LPF-Learned (end-to-end learned aggregation), enabling a principled comparison between explicit probabilistic reasoning and learned aggregation under a shared uncertainty representation. Across eight domains (seven synthetic and the FEVER benchmark), LPF-SPN achieves high accuracy (up to 97.8%), low calibration error (ECE 1.4%), and strong probabilistic fit, substantially outperforming evidential deep learning, LLMs and graph-based baselines over 15 random seeds. Contributions: (1) A framework bridging latent uncertainty representations with structured probabilistic reasoning. (2) Dual architectures enabling controlled comparison of reasoning paradigms. (3) Reproducible training methodology with seed selection. (4) Evaluation against EDL, BERT, R-GCN, and large language model baselines. (5) Cross-domain validation. (6) Formal guarantees in a companion paper.

Eu Sei o Que Não Sei: Modelos de Fatores Posteriores Latentes para Raciocínio Probabilístico com Múltiplas Evidências

I Know What I Don't Know: Latent Posterior Factor Models for Multi-Evidence Probabilistic Reasoning

Resumo

Support