SemViQA: Een Semantisch Vraag-Antwoordsysteem voor Vietnamese Informatie Feitencontrole

Samenvatting

De opkomst van desinformatie, verergerd door grote taalmodelen (LLMs) zoals GPT en Gemini, vereist robuuste oplossingen voor feitencontrole, vooral voor talen met beperkte bronnen zoals Vietnamees. Bestaande methoden worstelen met semantische ambiguïteit, homoniemen en complexe linguïstische structuren, waarbij vaak nauwkeurigheid wordt ingeruild voor efficiëntie. Wij introduceren SemViQA, een nieuw Vietnamees raamwerk voor feitencontrole dat Semantic-based Evidence Retrieval (SER) en Two-step Verdict Classification (TVC) integreert. Onze aanpak balanceert precisie en snelheid, en behaalt state-of-the-art resultaten met 78,97% strikte nauwkeurigheid op ISE-DSC01 en 80,82% op ViWikiFC, waarmee de eerste plaats wordt behaald in de UIT Data Science Challenge. Daarnaast verbetert SemViQA Faster de inferentiesnelheid met een factor 7 terwijl het een competitieve nauwkeurigheid behoudt. SemViQA stelt een nieuwe standaard voor Vietnamese feitenverificatie en draagt bij aan de strijd tegen desinformatie. De broncode is beschikbaar op: https://github.com/DAVID-NGUYEN-S16/SemViQA.

English

The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.

SemViQA: Een Semantisch Vraag-Antwoordsysteem voor Vietnamese Informatie Feitencontrole

SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

Samenvatting

Support