SemViQA: 베트남 정보 사실 확인을 위한 의미론적 질문 응답 시스템
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
March 2, 2025
저자: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI
초록
GPT와 Gemini와 같은 대형 언어 모델(LLMs)로 인해 악화된 허위정보의 확산은 특히 베트남어와 같은 저자원 언어에 대해 강력한 팩트체크 솔루션을 요구하고 있습니다. 기존 방법들은 의미적 모호성, 동음이의어, 복잡한 언어 구조에 대처하는 데 어려움을 겪으며 종종 정확성을 효율성과 맞바꾸곤 합니다. 우리는 의미 기반 증거 검색(SER)과 2단계 판단 분류(TVC)를 통합한 새로운 베트남어 팩트체크 프레임워크인 SemViQA를 소개합니다. 우리의 접근 방식은 정밀도와 속도의 균형을 맞추며, ISE-DSC01에서 78.97%의 엄격한 정확도와 ViWikiFC에서 80.82%의 정확도를 달성하여 UIT 데이터 과학 챌린지에서 1위를 차지했습니다. 또한, SemViQA Faster는 경쟁력 있는 정확도를 유지하면서 추론 속도를 7배 향상시켰습니다. SemViQA는 베트남어 팩트 검증을 위한 새로운 벤치마크를 설정하며, 허위정보와의 싸움을 진전시킵니다. 소스 코드는 https://github.com/DAVID-NGUYEN-S16/SemViQA에서 확인할 수 있습니다.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like
GPT and Gemini, demands robust fact-checking solutions, especially for
low-resource languages like Vietnamese. Existing methods struggle with semantic
ambiguity, homonyms, and complex linguistic structures, often trading accuracy
for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking
framework integrating Semantic-based Evidence Retrieval (SER) and Two-step
Verdict Classification (TVC). Our approach balances precision and speed,
achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01
and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge.
Additionally, SemViQA Faster improves inference speed 7x while maintaining
competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact
verification, advancing the fight against misinformation. The source code is
available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.Summary
AI-Generated Summary