SemViQA: ベトナム語情報のファクトチェックのための意味論的質問応答システム
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
March 2, 2025
著者: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI
要旨
GPTやGeminiなどの大規模言語モデル(LLMs)によって悪化した誤情報の拡散は、特にベトナム語のような低リソース言語において、堅牢なファクトチェックソリューションを必要としています。既存の手法は、意味的な曖昧さ、同音異義語、複雑な言語構造に対処するのに苦労しており、しばしば精度を効率と引き換えにしています。我々は、Semantic-based Evidence Retrieval(SER)とTwo-step Verdict Classification(TVC)を統合した新しいベトナム語ファクトチェックフレームワークであるSemViQAを紹介します。このアプローチは精度と速度のバランスを取り、ISE-DSC01で78.97%の厳密な精度、ViWikiFCで80.82%の精度を達成し、UIT Data Science Challengeで1位を獲得しました。さらに、SemViQA Fasterは推論速度を7倍に向上させながら、競争力のある精度を維持しています。SemViQAはベトナム語のファクト検証における新たなベンチマークを設定し、誤情報との戦いを前進させます。ソースコードは以下で公開されています: https://github.com/DAVID-NGUYEN-S16/SemViQA。
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like
GPT and Gemini, demands robust fact-checking solutions, especially for
low-resource languages like Vietnamese. Existing methods struggle with semantic
ambiguity, homonyms, and complex linguistic structures, often trading accuracy
for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking
framework integrating Semantic-based Evidence Retrieval (SER) and Two-step
Verdict Classification (TVC). Our approach balances precision and speed,
achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01
and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge.
Additionally, SemViQA Faster improves inference speed 7x while maintaining
competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact
verification, advancing the fight against misinformation. The source code is
available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.Summary
AI-Generated Summary