ChatPaper.aiChatPaper

SemViQA: Un Sistema de Respuesta a Preguntas Semánticas para la Verificación de Información en Vietnamita

SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking

March 2, 2025
Autores: Nam V. Nguyen, Dien X. Tran, Thanh T. Tran, Anh T. Hoang, Tai V. Duong, Di T. Le, Phuc-Lu Le
cs.AI

Resumen

El aumento de la desinformación, exacerbado por los Modelos de Lenguaje a Gran Escala (LLMs) como GPT y Gemini, exige soluciones robustas de verificación de hechos, especialmente para idiomas de bajos recursos como el vietnamita. Los métodos existentes luchan contra la ambigüedad semántica, los homónimos y las estructuras lingüísticas complejas, a menudo sacrificando precisión por eficiencia. Presentamos SemViQA, un novedoso marco de verificación de hechos en vietnamita que integra la Recuperación de Evidencias Basada en Semántica (SER) y la Clasificación de Veredicto en Dos Pasos (TVC). Nuestro enfoque equilibra precisión y velocidad, logrando resultados de vanguardia con un 78.97\% de precisión estricta en ISE-DSC01 y un 80.82\% en ViWikiFC, asegurando el primer lugar en el UIT Data Science Challenge. Además, SemViQA Faster mejora la velocidad de inferencia 7 veces mientras mantiene una precisión competitiva. SemViQA establece un nuevo estándar para la verificación de hechos en vietnamita, avanzando en la lucha contra la desinformación. El código fuente está disponible en: https://github.com/DAVID-NGUYEN-S16/SemViQA.
English
The rise of misinformation, exacerbated by Large Language Models (LLMs) like GPT and Gemini, demands robust fact-checking solutions, especially for low-resource languages like Vietnamese. Existing methods struggle with semantic ambiguity, homonyms, and complex linguistic structures, often trading accuracy for efficiency. We introduce SemViQA, a novel Vietnamese fact-checking framework integrating Semantic-based Evidence Retrieval (SER) and Two-step Verdict Classification (TVC). Our approach balances precision and speed, achieving state-of-the-art results with 78.97\% strict accuracy on ISE-DSC01 and 80.82\% on ViWikiFC, securing 1st place in the UIT Data Science Challenge. Additionally, SemViQA Faster improves inference speed 7x while maintaining competitive accuracy. SemViQA sets a new benchmark for Vietnamese fact verification, advancing the fight against misinformation. The source code is available at: https://github.com/DAVID-NGUYEN-S16/SemViQA.

Summary

AI-Generated Summary

PDF272March 5, 2025