FACTORY: Un Conjunto de Indicaciones Verificadas por Humanos para la Veracidad en Textos de Largo Alcance
FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality
July 31, 2025
Autores: Mingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih
cs.AI
Resumen
La evaluación de factualidad de largo formato mide la capacidad de los modelos para generar respuestas precisas y completas a partir de indicaciones breves. Los puntos de referencia existentes a menudo carecen de verificación humana, lo que puede dar lugar a problemas de calidad. Para abordar esta limitación, presentamos FACTORY, un conjunto de indicaciones a gran escala verificado por humanos. Desarrollado mediante un enfoque de modelo-en-el-bucle y refinado por humanos, FACTORY incluye indicaciones desafiantes que buscan hechos, son respondibles y no ambiguas. Realizamos evaluaciones humanas en 6 modelos de lenguaje de última generación utilizando FACTORY y conjuntos de datos existentes. Nuestros resultados muestran que FACTORY es un punto de referencia desafiante: aproximadamente el 40% de las afirmaciones hechas en las respuestas de los modelos de última generación no son factuales, en comparación con solo el 10% en otros conjuntos de datos. Nuestro análisis identifica las fortalezas de FACTORY frente a puntos de referencia anteriores, destacando su fiabilidad y la necesidad de que los modelos razonen sobre hechos de cola larga.
English
Long-form factuality evaluation assesses the ability of models to generate
accurate, comprehensive responses to short prompts. Existing benchmarks often
lack human verification, leading to potential quality issues. To address this
limitation, we introduce FACTORY, a large-scale, human-verified prompt set.
Developed using a model-in-the-loop approach and refined by humans, FACTORY
includes challenging prompts that are fact-seeking, answerable, and
unambiguous. We conduct human evaluations on 6 state-of-the-art language models
using FACTORY and existing datasets. Our results show that FACTORY is a
challenging benchmark: approximately 40% of the claims made in the responses of
SOTA models are not factual, compared to only 10% for other datasets. Our
analysis identifies the strengths of FACTORY over prior benchmarks, emphasizing
its reliability and the necessity for models to reason across long-tailed
facts.