Riduzione delle Allucinazioni nei Modelli Linguistici mediante un Oracle di Licenza
Stemming Hallucination in Language Models Using a Licensing Oracle
November 8, 2025
Autori: Simeon Emanuilov, Richard Ackermann
cs.AI
Abstract
I modelli linguistici mostrano notevoli capacità di generazione del linguaggio naturale, ma rimangono inclini ad allucinazioni, producendo informazioni fattualmente errate nonostante generino risposte sintatticamente coerenti. Questo studio introduce il Licensing Oracle, una soluzione architetturale progettata per contrastare le allucinazioni nei modelli linguistici applicando vincoli di verità attraverso la validazione formale rispetto a grafi di conoscenza strutturati. A differenza degli approcci statistici che si basano su scalabilità dei dati o fine-tuning, il Licensing Oracle incorpora un passo di validazione deterministico nel processo generativo del modello, garantendo che vengano prodotte solo affermazioni fattualmente accurate. Abbiamo valutato l'efficacia del Licensing Oracle attraverso esperimenti comparandolo con diversi metodi all'avanguardia, inclusi la generazione baseline di modelli linguistici, il fine-tuning per il richiamo fattuale, il fine-tuning per il comportamento di astensione e la generazione aumentata dal retrieval (RAG). I nostri risultati dimostrano che, sebbene RAG e il fine-tuning migliorino le prestazioni, non eliminano le allucinazioni. Al contrario, il Licensing Oracle ha raggiunto una precisione di astensione perfetta (AP = 1.0) e zero risposte false (FAR-NE = 0.0), garantendo che venissero generate solo affermazioni valide con un'accuratezza dell'89.1% nelle risposte fattuali. Questo lavoro mostra che innovazioni architetturali come il Licensing Oracle offrono una soluzione necessaria e sufficiente per le allucinazioni in domini con rappresentazioni di conoscenza strutturata, fornendo garanzie che i metodi statistici non possono eguagliare. Sebbene il Licensing Oracle sia specificamente progettato per affrontare le allucinazioni in domini basati su fatti, il suo framework getta le basi per una generazione vincolata alla verità nei futuri sistemi di IA, tracciando una nuova strada verso modelli affidabili e epistemicamente fondati.
English
Language models exhibit remarkable natural language generation capabilities
but remain prone to hallucinations, generating factually incorrect information
despite producing syntactically coherent responses. This study introduces the
Licensing Oracle, an architectural solution designed to stem hallucinations in
LMs by enforcing truth constraints through formal validation against structured
knowledge graphs. Unlike statistical approaches that rely on data scaling or
fine-tuning, the Licensing Oracle embeds a deterministic validation step into
the model's generative process, ensuring that only factually accurate claims
are made. We evaluated the effectiveness of the Licensing Oracle through
experiments comparing it with several state-of-the-art methods, including
baseline language model generation, fine-tuning for factual recall, fine-tuning
for abstention behavior, and retrieval-augmented generation (RAG). Our results
demonstrate that although RAG and fine-tuning improve performance, they fail to
eliminate hallucinations. In contrast, the Licensing Oracle achieved perfect
abstention precision (AP = 1.0) and zero false answers (FAR-NE = 0.0), ensuring
that only valid claims were generated with 89.1% accuracy in factual responses.
This work shows that architectural innovations, such as the Licensing Oracle,
offer a necessary and sufficient solution for hallucinations in domains with
structured knowledge representations, offering guarantees that statistical
methods cannot match. Although the Licensing Oracle is specifically designed to
address hallucinations in fact-based domains, its framework lays the groundwork
for truth-constrained generation in future AI systems, providing a new path
toward reliable, epistemically grounded models.