SemViQA: Un sistema di risposta semantica alle domande per la verifica delle informazioni in vietnamita
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
March 2, 2025
Autori: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI
Abstract
L'aumento della disinformazione, aggravato dai Modelli Linguistici di Grande Dimensione (LLMs) come GPT e Gemini, richiede soluzioni robuste di fact-checking, specialmente per lingue a bassa risorsa come il vietnamita. I metodi esistenti faticano a gestire l'ambiguità semantica, gli omonimi e le strutture linguistiche complesse, spesso sacrificando l'accuratezza per l'efficienza. Introduciamo SemViQA, un nuovo framework di fact-checking per il vietnamita che integra il Recupero di Prove Basato sulla Semantica (SER) e la Classificazione del Verdetto in Due Passaggi (TVC). Il nostro approccio bilancia precisione e velocità, raggiungendo risultati all'avanguardia con un'accuratezza rigorosa del 78,97\% su ISE-DSC01 e dell'80,82\% su ViWikiFC, ottenendo il primo posto nella UIT Data Science Challenge. Inoltre, SemViQA Faster migliora la velocità di inferenza di 7 volte mantenendo un'accuratezza competitiva. SemViQA stabilisce un nuovo punto di riferimento per la verifica dei fatti in vietnamita, avanzando nella lotta contro la disinformazione. Il codice sorgente è disponibile all'indirizzo: https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like
GPT and Gemini, demands robust fact-checking solutions, especially for
low-resource languages like Vietnamese. Existing methods struggle with semantic
ambiguity, homonyms, and complex linguistic structures, often trading accuracy
for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking
framework integrating Semantic-based Evidence Retrieval (SER) and Two-step
Verdict Classification (TVC). Our approach balances precision and speed,
achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01
and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge.
Additionally, SemViQA Faster improves inference speed 7x while maintaining
competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact
verification, advancing the fight against misinformation. The source code is
available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.Summary
AI-Generated Summary