SemViQA: Ein semantisches Frage-Antwort-System zur Faktenprüfung vietnamesischer Informationen
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
March 2, 2025
Autoren: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI
Zusammenfassung
Der Anstieg von Fehlinformationen, verstärkt durch Large Language Models (LLMs) wie GPT und Gemini, erfordert robuste Lösungen zur Faktenüberprüfung, insbesondere für ressourcenarme Sprachen wie Vietnamesisch. Bestehende Methoden kämpfen mit semantischer Mehrdeutigkeit, Homonymen und komplexen linguistischen Strukturen und opfern oft Genauigkeit zugunsten von Effizienz. Wir stellen SemViQA vor, ein neuartiges Framework zur Faktenüberprüfung im Vietnamesischen, das Semantic-based Evidence Retrieval (SER) und Two-step Verdict Classification (TVC) integriert. Unser Ansatz balanciert Präzision und Geschwindigkeit und erzielt state-of-the-art Ergebnisse mit 78,97 % strenger Genauigkeit auf ISE-DSC01 und 80,82 % auf ViWikiFC, womit der erste Platz im UIT Data Science Challenge gesichert wird. Zusätzlich verbessert SemViQA Faster die Inferenzgeschwindigkeit um das 7-fache bei gleichbleibend wettbewerbsfähiger Genauigkeit. SemViQA setzt einen neuen Maßstab für die vietnamesische Faktenüberprüfung und fördert den Kampf gegen Fehlinformationen. Der Quellcode ist verfügbar unter: https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like
GPT and Gemini, demands robust fact-checking solutions, especially for
low-resource languages like Vietnamese. Existing methods struggle with semantic
ambiguity, homonyms, and complex linguistic structures, often trading accuracy
for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking
framework integrating Semantic-based Evidence Retrieval (SER) and Two-step
Verdict Classification (TVC). Our approach balances precision and speed,
achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01
and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge.
Additionally, SemViQA Faster improves inference speed 7x while maintaining
competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact
verification, advancing the fight against misinformation. The source code is
available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.Summary
AI-Generated Summary