ACL-Verbatim : réponse aux questions sans hallucination pour la recherche

Résumé

Les chercheurs académiques ont besoin de méthodes efficaces et fiables pour collecter des informations de haute qualité provenant de sources de confiance, mais les outils modernes de recherche assistée par IA souffrent encore de la tendance des grands modèles de langage (LLM) à produire des résultats factuellement inexacts ou dénués de sens, communément appelés hallucinations. Nous appliquons le système de réponse aux questions extractives VerbatimRAG aux articles de recherche du ACL Anthology, en mappant directement les requêtes utilisateur à des extraits textuels verbatim dans les documents récupérés. Nous contribuons à un nouvel ensemble de données de vérité terrain pour la tâche de mappage des requêtes utilisateur aux passages textuels pertinents dans les articles de recherche, et l'utilisons pour entraîner et évaluer une variété de modèles extractifs. L'annotation humaine est réalisée par des chercheurs en TALN et repose sur des requêtes utilisateur synthétiques générées à l'aide d'un pipeline personnalisé basé sur la méthodologie ScIRGen, associées à des fragments d'articles de recherche récupérés par VerbatimRAG. Sur ce banc d'essai, un classifieur de tokens ModernBERT de 150 millions de paramètres entraîné par supervision argentée à partir de notre pipeline atteint le meilleur F1 au niveau des mots (53,6), devant le meilleur extracteur LLM évalué (48,7).

English

Academic researchers need efficient and reliable methods for collecting high-quality information from trusted sources, but modern tools for AI-assisted research still suffer from the tendency of Large Language Models (LLMs) to produce factually inaccurate or nonsensical output, commonly referred to as hallucinations. We apply the extractive question answering system VerbatimRAG to research papers in the ACL Anthology, directly mapping user queries to verbatim text spans in retrieved documents. We contribute a novel ground truth dataset for the task of mapping user queries to relevant text spans in research papers, and use it to train and evaluate a variety of extractive models. Human annotation is performed by NLP researchers and is based on synthetic user queries generated using a custom pipeline based on the ScIRGen methodology, paired with chunks of research papers retrieved by VerbatimRAG. On this benchmark, a 150M-parameter ModernBERT token classifier trained on silver supervision from our pipeline achieves the best word-level F1 (53.6), ahead of the strongest evaluated LLM extractor (48.7).