SemViQA : Un système de question-réponse sémantique pour la vérification des faits dans les informations vietnamiennes
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
March 2, 2025
Auteurs: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI
Résumé
La montée de la désinformation, exacerbée par les modèles de langage de grande envergure (LLMs) comme GPT et Gemini, exige des solutions robustes de vérification des faits, en particulier pour les langues à ressources limitées comme le vietnamien. Les méthodes existantes peinent à gérer l'ambiguïté sémantique, les homonymes et les structures linguistiques complexes, souvent en sacrifiant la précision pour l'efficacité. Nous présentons SemViQA, un nouveau cadre de vérification des faits en vietnamien intégrant la Récupération de Preuves basée sur la Sémantique (SER) et la Classification de Verdict en Deux Étapes (TVC). Notre approche équilibre précision et rapidité, obtenant des résultats de pointe avec une précision stricte de 78,97 % sur ISE-DSC01 et 80,82 % sur ViWikiFC, se classant première au UIT Data Science Challenge. De plus, SemViQA Faster améliore la vitesse d'inférence par un facteur de 7 tout en maintenant une précision compétitive. SemViQA établit un nouveau standard pour la vérification des faits en vietnamien, faisant progresser la lutte contre la désinformation. Le code source est disponible à l'adresse : https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like
GPT and Gemini, demands robust fact-checking solutions, especially for
low-resource languages like Vietnamese. Existing methods struggle with semantic
ambiguity, homonyms, and complex linguistic structures, often trading accuracy
for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking
framework integrating Semantic-based Evidence Retrieval (SER) and Two-step
Verdict Classification (TVC). Our approach balances precision and speed,
achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01
and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge.
Additionally, SemViQA Faster improves inference speed 7x while maintaining
competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact
verification, advancing the fight against misinformation. The source code is
available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.Summary
AI-Generated Summary