SemViQA: Ein semantisches Frage-Antwort-System zur Faktenprüfung vietnamesischer Informationen

papers.abstract

Der Anstieg von Fehlinformationen, verstärkt durch Large Language Models (LLMs) wie GPT und Gemini, erfordert robuste Lösungen zur Faktenüberprüfung, insbesondere für ressourcenarme Sprachen wie Vietnamesisch. Bestehende Methoden kämpfen mit semantischer Mehrdeutigkeit, Homonymen und komplexen linguistischen Strukturen und opfern oft Genauigkeit zugunsten von Effizienz. Wir stellen SemViQA vor, ein neuartiges Framework zur Faktenüberprüfung im Vietnamesischen, das Semantic-based Evidence Retrieval (SER) und Two-step Verdict Classification (TVC) integriert. Unser Ansatz balanciert Präzision und Geschwindigkeit und erzielt state-of-the-art Ergebnisse mit 78,97 % strenger Genauigkeit auf ISE-DSC01 und 80,82 % auf ViWikiFC, womit der erste Platz im UIT Data Science Challenge gesichert wird. Zusätzlich verbessert SemViQA Faster die Inferenzgeschwindigkeit um das 7-fache bei gleichbleibend wettbewerbsfähiger Genauigkeit. SemViQA setzt einen neuen Maßstab für die vietnamesische Faktenüberprüfung und fördert den Kampf gegen Fehlinformationen. Der Quellcode ist verfügbar unter: https://github.com/DAVID-NGUYEN-S16/SemViQA.

English

The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.

SemViQA: Ein semantisches Frage-Antwort-System zur Faktenprüfung vietnamesischer Informationen

SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

papers.abstract

Support