SemViQA: ベトナム語情報のファクトチェックのための意味論的質問応答システム

要旨

GPTやGeminiなどの大規模言語モデル（LLMs）によって悪化した誤情報の拡散は、特にベトナム語のような低リソース言語において、堅牢なファクトチェックソリューションを必要としています。既存の手法は、意味的な曖昧さ、同音異義語、複雑な言語構造に対処するのに苦労しており、しばしば精度を効率と引き換えにしています。我々は、Semantic-based Evidence Retrieval（SER）とTwo-step Verdict Classification（TVC）を統合した新しいベトナム語ファクトチェックフレームワークであるSemViQAを紹介します。このアプローチは精度と速度のバランスを取り、ISE-DSC01で78.97％の厳密な精度、ViWikiFCで80.82％の精度を達成し、UIT Data Science Challengeで1位を獲得しました。さらに、SemViQA Fasterは推論速度を7倍に向上させながら、競争力のある精度を維持しています。SemViQAはベトナム語のファクト検証における新たなベンチマークを設定し、誤情報との戦いを前進させます。ソースコードは以下で公開されています: https://github.com/DAVID-NGUYEN-S16/SemViQA。

English

The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.