ChatPaper.aiChatPaper

SemViQA : Un système de question-réponse sémantique pour la vérification des faits dans les informations vietnamiennes

SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

March 2, 2025
Auteurs: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI

Résumé

La montée de la désinformation, exacerbée par les modèles de langage de grande envergure (LLMs) comme GPT et Gemini, exige des solutions robustes de vérification des faits, en particulier pour les langues à ressources limitées comme le vietnamien. Les méthodes existantes peinent à gérer l'ambiguïté sémantique, les homonymes et les structures linguistiques complexes, souvent en sacrifiant la précision pour l'efficacité. Nous présentons SemViQA, un nouveau cadre de vérification des faits en vietnamien intégrant la Récupération de Preuves basée sur la Sémantique (SER) et la Classification de Verdict en Deux Étapes (TVC). Notre approche équilibre précision et rapidité, obtenant des résultats de pointe avec une précision stricte de 78,97 % sur ISE-DSC01 et 80,82 % sur ViWikiFC, se classant première au UIT Data Science Challenge. De plus, SemViQA Faster améliore la vitesse d'inférence par un facteur de 7 tout en maintenant une précision compétitive. SemViQA établit un nouveau standard pour la vérification des faits en vietnamien, faisant progresser la lutte contre la désinformation. Le code source est disponible à l'adresse : https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.

Summary

AI-Generated Summary

PDF272March 5, 2025