ACL-Verbatim: halluzinationsfreie Fragenbeantwortung für die Forschung

Zusammenfassung

Akademische Forscher benötigen effiziente und zuverlässige Methoden zur Erhebung hochwertiger Informationen aus vertrauenswürdigen Quellen. Moderne Werkzeuge für KI-gestützte Forschung leiden jedoch weiterhin unter der Tendenz großer Sprachmodelle (LLMs), faktisch ungenaue oder sinnlose Ausgaben zu produzieren, die üblicherweise als Halluzinationen bezeichnet werden. Wir wenden das extraktive Frage-Antwort-System VerbatimRAG auf Forschungspapiere im ACL Anthology an, das Benutzeranfragen direkt wörtlichen Textabschnitten in abgerufenen Dokumenten zuordnet. Wir erstellen einen neuartigen Ground-Truth-Datensatz für die Aufgabe, Benutzeranfragen relevanten Textabschnitten in Forschungspapieren zuzuordnen, und verwenden diesen, um eine Vielzahl extraktiver Modelle zu trainieren und zu evaluieren. Die manuelle Annotation wird von NLP-Forschern durchgeführt und basiert auf synthetischen Benutzeranfragen, die mittels einer maßgeschneiderten Pipeline auf Basis der ScIRGen-Methodik generiert wurden, gepaart mit Textabschnitten aus Forschungspapieren, die von VerbatimRAG abgerufen wurden. In diesem Benchmark erreicht ein 150M-Parameter ModernBERT-Token-Klassifikator, der mit silberner Überwachung aus unserer Pipeline trainiert wurde, das beste F1 auf Wortebene (53,6), vor dem stärksten evaluierten LLM-Extraktor (48,7).

English

Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).