ACL-Verbatim: resposta a perguntas livre de alucinações para pesquisa

Resumo

Pesquisadores acadêmicos precisam de métodos eficientes e confiáveis para coletar informações de alta qualidade de fontes confiáveis, mas as ferramentas modernas para pesquisa assistida por IA ainda sofrem da tendência dos Modelos de Linguagem de Grande Escala (LLMs) de produzir saídas factualmente imprecisas ou sem sentido, comumente chamadas de alucinações. Aplicamos o sistema de resposta a perguntas extrativo VerbatimRAG a artigos de pesquisa da ACL Anthology, mapeando diretamente consultas de usuários para trechos textuais literais em documentos recuperados. Contribuímos com um novo conjunto de dados de referência para a tarefa de mapear consultas de usuários para trechos textuais relevantes em artigos de pesquisa, e o utilizamos para treinar e avaliar uma variedade de modelos extrativos. A anotação humana é realizada por pesquisadores de PLN e baseia-se em consultas sintéticas de usuários geradas por meio de um pipeline personalizado fundamentado na metodologia ScIRGen, combinadas com trechos de artigos de pesquisa recuperados pelo VerbatimRAG. Nesse benchmark, um classificador de tokens ModernBERT de 150M de parâmetros treinado com supervisão silver do nosso pipeline alcança o melhor F1 a nível de palavra (53,6), superando o extrator LLM mais forte avaliado (48,7).

English

Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).