ChatPaper.aiChatPaper

FACTORY: Un Conjunto de Indicaciones Verificadas por Humanos para la Veracidad en Textos de Largo Alcance

FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality

July 31, 2025
Autores: Mingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih
cs.AI

Resumen

La evaluación de factualidad de largo formato mide la capacidad de los modelos para generar respuestas precisas y completas a partir de indicaciones breves. Los puntos de referencia existentes a menudo carecen de verificación humana, lo que puede dar lugar a problemas de calidad. Para abordar esta limitación, presentamos FACTORY, un conjunto de indicaciones a gran escala verificado por humanos. Desarrollado mediante un enfoque de modelo-en-el-bucle y refinado por humanos, FACTORY incluye indicaciones desafiantes que buscan hechos, son respondibles y no ambiguas. Realizamos evaluaciones humanas en 6 modelos de lenguaje de última generación utilizando FACTORY y conjuntos de datos existentes. Nuestros resultados muestran que FACTORY es un punto de referencia desafiante: aproximadamente el 40% de las afirmaciones hechas en las respuestas de los modelos de última generación no son factuales, en comparación con solo el 10% en otros conjuntos de datos. Nuestro análisis identifica las fortalezas de FACTORY frente a puntos de referencia anteriores, destacando su fiabilidad y la necesidad de que los modelos razonen sobre hechos de cola larga.
English
Long-form factuality evaluation assesses the ability of models to generate accurate, comprehensive responses to short prompts. Existing benchmarks often lack human verification, leading to potential quality issues. To address this limitation, we introduce FACTORY, a large-scale, human-verified prompt set. Developed using a model-in-the-loop approach and refined by humans, FACTORY includes challenging prompts that are fact-seeking, answerable, and unambiguous. We conduct human evaluations on 6 state-of-the-art language models using FACTORY and existing datasets. Our results show that FACTORY is a challenging benchmark: approximately 40% of the claims made in the responses of SOTA models are not factual, compared to only 10% for other datasets. Our analysis identifies the strengths of FACTORY over prior benchmarks, emphasizing its reliability and the necessity for models to reason across long-tailed facts.
PDF42August 7, 2025