ChatPaper.aiChatPaper

FACTORY: Ein anspruchsvoller, menschlich verifizierter Prompt-Datensatz für langformatige Faktizität

FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality

July 31, 2025
papers.authors: Mingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih
cs.AI

papers.abstract

Die Bewertung der Langform-Faktizität beurteilt die Fähigkeit von Modellen, präzise und umfassende Antworten auf kurze Eingabeaufforderungen zu generieren. Bestehende Benchmarks weisen oft eine fehlende menschliche Überprüfung auf, was zu potenziellen Qualitätsproblemen führen kann. Um diese Einschränkung zu überwinden, führen wir FACTORY ein, einen groß angelegten, menschlich verifizierten Satz von Eingabeaufforderungen. FACTORY wurde mithilfe eines Modell-in-the-Loop-Ansatzes entwickelt und durch menschliche Bearbeitung verfeinert. Es umfasst anspruchsvolle Eingabeaufforderungen, die faktenorientiert, beantwortbar und eindeutig sind. Wir führen menschliche Bewertungen an 6 state-of-the-art-Sprachmodellen durch, wobei FACTORY und bestehende Datensätze verwendet werden. Unsere Ergebnisse zeigen, dass FACTORY ein anspruchsvoller Benchmark ist: etwa 40 % der Behauptungen in den Antworten der SOTA-Modelle sind nicht faktisch korrekt, verglichen mit nur 10 % bei anderen Datensätzen. Unsere Analyse hebt die Stärken von FACTORY gegenüber früheren Benchmarks hervor und betont dessen Zuverlässigkeit sowie die Notwendigkeit für Modelle, über langschwänzige Fakten hinweg zu schlussfolgern.
English
Long-form factuality evaluation assesses the ability of models to generate accurate, comprehensive responses to short prompts. Existing benchmarks often lack human verification, leading to potential quality issues. To address this limitation, we introduce FACTORY, a large-scale, human-verified prompt set. Developed using a model-in-the-loop approach and refined by humans, FACTORY includes challenging prompts that are fact-seeking, answerable, and unambiguous. We conduct human evaluations on 6 state-of-the-art language models using FACTORY and existing datasets. Our results show that FACTORY is a challenging benchmark: approximately 40% of the claims made in the responses of SOTA models are not factual, compared to only 10% for other datasets. Our analysis identifies the strengths of FACTORY over prior benchmarks, emphasizing its reliability and the necessity for models to reason across long-tailed facts.
PDF42August 7, 2025