Confiar pero Verificar: Presentando DAVinCI -- Un Marco para la Atribución Dual y Verificación en la Inferencia de Afirmaciones para Modelos de Lenguaje

Resumen

Los Modelos de Lenguaje a Gran Escala (LLM) han demostrado una fluidez y versatilidad notables en una amplia gama de tareas de PLN, pero siguen siendo propensos a imprecisiones fácticas y alucinaciones. Esta limitación plantea riesgos significativos en dominios de alto riesgo como la atención sanitaria, el derecho y la comunicación científica, donde la confianza y la verificabilidad son primordiales. En este artículo, presentamos DAVinCI, un marco de Doble Atribución y Verificación diseñado para mejorar la fiabilidad fáctica y la interpretabilidad de las salidas de los LLM. DAVinCI opera en dos etapas: (i) atribuye las afirmaciones generadas a componentes internos del modelo y a fuentes externas; (ii) verifica cada afirmación utilizando razonamiento basado en implicación y calibración de la confianza. Evaluamos DAVinCI en múltiples conjuntos de datos, incluyendo FEVER y CLIMATE-FEVER, y comparamos su rendimiento con líneas base estándar que solo realizan verificación. Nuestros resultados muestran que DAVinCI mejora significativamente la precisión de clasificación, la precisión de atribución, la exhaustividad y la puntuación F1 en un 5-20%. Mediante un extenso estudio de ablación, aislamos las contribuciones de la selección del intervalo de evidencia, los umbrales de recalibración y la calidad de la recuperación. También publicamos una implementación modular de DAVinCI que puede integrarse en las canalizaciones existentes de LLM. Al unir la atribución y la verificación, DAVinCI ofrece un camino escalable hacia sistemas de IA auditables y confiables. Este trabajo contribuye al creciente esfuerzo por hacer que los LLM no solo sean potentes, sino también responsables.

English

Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual inaccuracies and hallucinations. This limitation poses significant risks in high-stakes domains such as healthcare, law, and scientific communication, where trust and verifiability are paramount. In this paper, we introduce DAVinCI - a Dual Attribution and Verification framework designed to enhance the factual reliability and interpretability of LLM outputs. DAVinCI operates in two stages: (i) it attributes generated claims to internal model components and external sources; (ii) it verifies each claim using entailment-based reasoning and confidence calibration. We evaluate DAVinCI across multiple datasets, including FEVER and CLIMATE-FEVER, and compare its performance against standard verification-only baselines. Our results show that DAVinCI significantly improves classification accuracy, attribution precision, recall, and F1-score by 5-20%. Through an extensive ablation study, we isolate the contributions of evidence span selection, recalibration thresholds, and retrieval quality. We also release a modular DAVinCI implementation that can be integrated into existing LLM pipelines. By bridging attribution and verification, DAVinCI offers a scalable path to auditable, trustworthy AI systems. This work contributes to the growing effort to make LLMs not only powerful but also accountable.

Confiar pero Verificar: Presentando DAVinCI -- Un Marco para la Atribución Dual y Verificación en la Inferencia de Afirmaciones para Modelos de Lenguaje

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Resumen

Support