ACL-Verbatim: respuesta a preguntas sin alucinaciones para investigación

Resumen

Los investigadores académicos necesitan métodos eficientes y fiables para recopilar información de alta calidad procedente de fuentes de confianza, pero las herramientas modernas para la investigación asistida por IA aún adolecen de la tendencia de los Modelos de Lenguaje de Gran Escala (LLMs) a producir resultados factualmente inexactos o sin sentido, comúnmente denominados alucinaciones. Aplicamos el sistema de respuesta a preguntas extractivo VerbatimRAG a artículos de investigación del ACL Anthology, asignando directamente las consultas de los usuarios a fragmentos de texto literales en los documentos recuperados. Contribuimos con un conjunto de datos de referencia novedoso para la tarea de asignar consultas de usuarios a fragmentos de texto relevantes en artículos de investigación, y lo utilizamos para entrenar y evaluar una variedad de modelos extractivos. La anotación humana es realizada por investigadores de PLN y se basa en consultas de usuarios sintéticas generadas mediante un pipeline personalizado basado en la metodología ScIRGen, emparejadas con fragmentos de artículos de investigación recuperados por VerbatimRAG. En este punto de referencia, un clasificador de tokens ModernBERT de 150 millones de parámetros entrenado con supervisión plateada de nuestro pipeline logra el mejor F1 a nivel de palabra (53.6), superando al extractor LLM evaluado más fuerte (48.7).

English

Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).