ACL-Verbatim: свободные от галлюцинаций ответы на вопросы для исследований

Аннотация

Академическим исследователям необходимы эффективные и надежные методы сбора высококачественной информации из проверенных источников, однако современные инструменты для ИИ-ассистированных исследований всё еще страдают от склонности больших языковых моделей (LLM) к выдаче фактически неточных или бессмысленных результатов, обычно называемых галлюцинациями. Мы применяем экстрактивную систему ответов на вопросы VerbatimRAG к научным статьям из сборника ACL Anthology, напрямую сопоставляя пользовательские запросы с дословными текстовыми фрагментами в извлеченных документах. Мы предоставляем новый набор эталонных данных для задачи сопоставления пользовательских запросов с релевантными текстовыми фрагментами в научных статьях и используем его для обучения и оценки различных экстрактивных моделей. Аннотирование выполняется исследователями в области NLP на основе синтетических пользовательских запросов, сгенерированных с помощью специального конвейера, основанного на методологии ScIRGen, в паре с фрагментами научных статей, извлеченными с помощью VerbatimRAG. На этом эталоне классификатор токенов ModernBERT с 150 миллионами параметров, обученный на серебряном контроле от нашего конвейера, достигает лучшего показателя F1 на уровне слов (53,6), опережая сильнейший оцененный экстрактор на основе LLM (48,7).

English

Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).