Bekämpfung von Halluzinationen in Sprachmodellen mithilfe eines Lizenzierungs-Orakels
Stemming Hallucination in Language Models Using a Licensing Oracle
November 8, 2025
papers.authors: Simeon Emanuilov, Richard Ackermann
cs.AI
papers.abstract
Sprachmodelle zeigen bemerkenswerte Fähigkeiten zur natürlichen Sprachgenerierung, neigen jedoch weiterhin zu Halluzinationen, bei denen sie trotz syntaktisch kohärenter Antworten faktisch falsche Informationen erzeugen. Diese Studie stellt das Licensing Oracle vor, eine architektonische Lösung, die entwickelt wurde, um Halluzinationen in Sprachmodellen einzudämmen, indem sie Wahrheitsbedingungen durch formale Validierung anhand strukturierter Wissensgraphen durchsetzt. Im Gegensatz zu statistischen Ansätzen, die auf Datenvergrößerung oder Feinabstimmung angewiesen sind, integriert das Licensing Oracle einen deterministischen Validierungsschritt in den Generierungsprozess des Modells und stellt so sicher, dass nur faktisch korrekte Aussagen getroffen werden. Wir bewerteten die Wirksamkeit des Licensing Oracle durch Experimente, in denen wir es mit mehreren modernen Methoden verglichen, darunter Basis-Sprachmodell-Generierung, Feinabstimmung für faktische Richtigkeit, Feinabstimmung für Enthaltsamkeitsverhalten und retrieval-augmentierte Generierung (RAG). Unsere Ergebnisse zeigen, dass zwar RAG und Feinabstimmung die Leistung verbessern, sie aber Halluzinationen nicht vollständig beseitigen. Im Gegensatz dazu erreichte das Licensing Oracle eine perfekte Enthaltsamkeitspräzision (AP = 1,0) und keine falschen Antworten (FAR-NE = 0,0) und stellte sicher, dass nur gültige Aussagen mit einer Genauigkeit von 89,1 % bei faktischen Antworten generiert wurden. Diese Arbeit zeigt, dass architektonische Innovationen wie das Licensing Oracle eine notwendige und hinreichende Lösung für Halluzinationen in Domänen mit strukturierten Wissensrepräsentationen bieten und Garantien ermöglichen, die statistische Methoden nicht erreichen können. Obwohl das Licensing Oracle speziell zur Bekämpfung von Halluzinationen in faktenbasierten Domänen entwickelt wurde, legt sein Framework den Grundstein für wahrheitsbeschränkte Generierung in zukünftigen KI-Systemen und eröffnet einen neuen Weg zu zuverlässigen, epistemisch fundierten Modellen.
English
Language models exhibit remarkable natural language generation capabilities
but remain prone to hallucinations, generating factually incorrect information
despite producing syntactically coherent responses. This study introduces the
Licensing Oracle, an architectural solution designed to stem hallucinations in
LMs by enforcing truth constraints through formal validation against structured
knowledge graphs. Unlike statistical approaches that rely on data scaling or
fine-tuning, the Licensing Oracle embeds a deterministic validation step into
the model's generative process, ensuring that only factually accurate claims
are made. We evaluated the effectiveness of the Licensing Oracle through
experiments comparing it with several state-of-the-art methods, including
baseline language model generation, fine-tuning for factual recall, fine-tuning
for abstention behavior, and retrieval-augmented generation (RAG). Our results
demonstrate that although RAG and fine-tuning improve performance, they fail to
eliminate hallucinations. In contrast, the Licensing Oracle achieved perfect
abstention precision (AP = 1.0) and zero false answers (FAR-NE = 0.0), ensuring
that only valid claims were generated with 89.1% accuracy in factual responses.
This work shows that architectural innovations, such as the Licensing Oracle,
offer a necessary and sufficient solution for hallucinations in domains with
structured knowledge representations, offering guarantees that statistical
methods cannot match. Although the Licensing Oracle is specifically designed to
address hallucinations in fact-based domains, its framework lays the groundwork
for truth-constrained generation in future AI systems, providing a new path
toward reliable, epistemically grounded models.