Vertrauen, aber Prüfen: Vorstellung von DAVinCI – Ein Framework zur dualen Attribuierung und Verifikation bei Behauptungsinferenzen für Sprachmodelle

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Flüssigkeit und Vielseitigkeit bei einer breiten Palette von NLP-Aufgaben demonstriert, bleiben jedoch anfällig für faktische Ungenauigkeiten und Halluzinationen. Diese Einschränkung birgt erhebliche Risiken in hochriskanten Domänen wie dem Gesundheitswesen, dem Rechtswesen und der wissenschaftlichen Kommunikation, wo Vertrauen und Überprüfbarkeit von größter Bedeutung sind. In diesem Artikel stellen wir DAVinCI vor - einen Dual-Attribution-and-Verification-Framework, der entwickelt wurde, um die faktische Zuverlässigkeit und Interpretierbarkeit von LLM-Outputs zu verbessern. DAVinCI operiert in zwei Stufen: (i) es attributiert generierte Behauptungen zu internen Modellkomponenten und externen Quellen; (ii) es verifiziert jede Behauptung mittels entailment-basierter Reasoning und Konfidenzkalibrierung. Wir evaluieren DAVinCI über mehrere Datensätze hinweg, einschließlich FEVER und CLIMATE-FEVER, und vergleichen seine Performance mit standardmäßigen Verifikations-Baselines. Unsere Ergebnisse zeigen, dass DAVinCI die Klassifikationsgenauigkeit, Attributionspräzision, Recall und F1-Score um 5-20% signifikant verbessert. Durch eine umfangreiche Ablationsstudie isolieren wir die Beiträge von Evidence-Span-Selektion, Rekalibrierungsschwellen und Retrieval-Qualität. Wir veröffentlichen zudem eine modulare DAVinCI-Implementierung, die in bestehende LLM-Pipelines integriert werden kann. Durch die Verknüpfung von Attribution und Verifikation bietet DAVinCI einen skalierbaren Weg zu auditierbaren, vertrauenswürdigen KI-Systemen. Diese Arbeit leistet einen Beitrag zu den wachsenden Bemühungen, LLMs nicht nur leistungsstark, sondern auch verantwortungsbewusst zu gestalten.

English

Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual inaccuracies and hallucinations. This limitation poses significant risks in high-stakes domains such as healthcare, law, and scientific communication, where trust and verifiability are paramount. In this paper, we introduce DAVinCI - a Dual Attribution and Verification framework designed to enhance the factual reliability and interpretability of LLM outputs. DAVinCI operates in two stages: (i) it attributes generated claims to internal model components and external sources; (ii) it verifies each claim using entailment-based reasoning and confidence calibration. We evaluate DAVinCI across multiple datasets, including FEVER and CLIMATE-FEVER, and compare its performance against standard verification-only baselines. Our results show that DAVinCI significantly improves classification accuracy, attribution precision, recall, and F1-score by 5-20%. Through an extensive ablation study, we isolate the contributions of evidence span selection, recalibration thresholds, and retrieval quality. We also release a modular DAVinCI implementation that can be integrated into existing LLM pipelines. By bridging attribution and verification, DAVinCI offers a scalable path to auditable, trustworthy AI systems. This work contributes to the growing effort to make LLMs not only powerful but also accountable.

Vertrauen, aber Prüfen: Vorstellung von DAVinCI – Ein Framework zur dualen Attribuierung und Verifikation bei Behauptungsinferenzen für Sprachmodelle

Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Zusammenfassung

Support