SemViQA: Un Sistema de Respuesta a Preguntas Semánticas para la Verificación de Información en Vietnamita
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
March 2, 2025
Autores: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI
Resumen
El aumento de la desinformación, exacerbado por los Modelos de Lenguaje a Gran Escala (LLMs) como GPT y Gemini, exige soluciones robustas de verificación de hechos, especialmente para idiomas de bajos recursos como el vietnamita. Los métodos existentes luchan contra la ambigüedad semántica, los homónimos y las estructuras lingüísticas complejas, a menudo sacrificando precisión por eficiencia. Presentamos SemViQA, un novedoso marco de verificación de hechos en vietnamita que integra la Recuperación de Evidencias Basada en Semántica (SER) y la Clasificación de Veredicto en Dos Pasos (TVC). Nuestro enfoque equilibra precisión y velocidad, logrando resultados de vanguardia con un 78.97\% de precisión estricta en ISE-DSC01 y un 80.82\% en ViWikiFC, asegurando el primer lugar en el UIT Data Science Challenge. Además, SemViQA Faster mejora la velocidad de inferencia 7 veces mientras mantiene una precisión competitiva. SemViQA establece un nuevo estándar para la verificación de hechos en vietnamita, avanzando en la lucha contra la desinformación. El código fuente está disponible en: https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like
GPT and Gemini, demands robust fact-checking solutions, especially for
low-resource languages like Vietnamese. Existing methods struggle with semantic
ambiguity, homonyms, and complex linguistic structures, often trading accuracy
for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking
framework integrating Semantic-based Evidence Retrieval (SER) and Two-step
Verdict Classification (TVC). Our approach balances precision and speed,
achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01
and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge.
Additionally, SemViQA Faster improves inference speed 7x while maintaining
competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact
verification, advancing the fight against misinformation. The source code is
available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.Summary
AI-Generated Summary