ACL-Verbatim: hallucinatievrije vraagbeantwoording voor onderzoek

Samenvatting

Academische onderzoekers hebben behoefte aan efficiënte en betrouwbare methoden voor het verzamelen van hoogwaardige informatie uit betrouwbare bronnen, maar moderne hulpmiddelen voor AI-ondersteund onderzoek hebben nog steeds te lijden onder de neiging van Large Language Models (LLM's) om feitelijk onjuiste of onsamenhangende output te produceren, algemeen aangeduid als hallucinaties. We passen het extractieve vraag-antwoordsysteem VerbatimRAG toe op onderzoeksartikelen in de ACL Anthology, waarbij gebruikersquery's rechtstreeks worden gekoppeld aan woordelijk getrouwe tekstfragmenten in opgehaalde documenten. We leveren een nieuwe grondwaarheidsdataset voor de taak van het koppelen van gebruikersquery's aan relevante tekstfragmenten in onderzoeksartikelen, en gebruiken deze om een verscheidenheid aan extractieve modellen te trainen en te evalueren. Menselijke annotatie wordt uitgevoerd door NLP-onderzoekers en is gebaseerd op synthetische gebruikersquery's die zijn gegenereerd met behulp van een aangepaste pijplijn op basis van de ScIRGen-methodologie, gekoppeld aan fragmenten van onderzoeksartikelen die zijn opgehaald door VerbatimRAG. Op deze benchmark behaalt een 150M-parameter ModernBERT-tokenclassifier, getraind op zilversupervisie van onze pijplijn, de beste woordniveau-F1 (53,6), voor de sterkst geëvalueerde LLM-extractor (48,7).

English

Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).