ChatPaper.aiChatPaper

SemViQA: Um Sistema de Resposta a Perguntas Semânticas para Verificação de Informações em Vietnamita

SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

March 2, 2025
Autores: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI

Resumo

O aumento da desinformação, exacerbado por Modelos de Linguagem de Grande Escala (LLMs) como GPT e Gemini, exige soluções robustas de verificação de fatos, especialmente para idiomas de baixos recursos, como o vietnamita. Os métodos existentes lutam com ambiguidade semântica, homônimos e estruturas linguísticas complexas, muitas vezes sacrificando a precisão em prol da eficiência. Apresentamos o SemViQA, uma nova estrutura de verificação de fatos em vietnamita que integra Recuperação de Evidências Baseada em Semântica (SER) e Classificação de Veredito em Duas Etapas (TVC). Nossa abordagem equilibra precisão e velocidade, alcançando resultados de ponta com 78,97% de precisão estrita no ISE-DSC01 e 80,82% no ViWikiFC, garantindo o 1º lugar no UIT Data Science Challenge. Além disso, o SemViQA Faster melhora a velocidade de inferência em 7 vezes, mantendo uma precisão competitiva. O SemViQA estabelece um novo padrão para a verificação de fatos em vietnamita, avançando na luta contra a desinformação. O código-fonte está disponível em: https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.

Summary

AI-Generated Summary

PDF272March 5, 2025