¿Cuáles son las Características Deseadas de los Conjuntos de Calibración? Identificación de Correlatos en la Resumificación Científica de Formato Largo
What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization
May 12, 2023
Autores: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI
Resumen
Los modelos de resumen a menudo generan texto que está mal calibrado con respecto a las métricas de calidad porque se entrenan para maximizar la verosimilitud de una única referencia (MLE). Para abordar esto, trabajos recientes han añadido un paso de calibración, que expone al modelo a sus propias salidas clasificadas para mejorar la relevancia o, en una línea de trabajo separada, contrasta conjuntos positivos y negativos para mejorar la fidelidad. Aunque efectivos, gran parte de estos trabajos se han centrado en cómo generar y optimizar estos conjuntos. Se sabe menos sobre por qué una configuración es más efectiva que otra. En este trabajo, descubrimos las características subyacentes de los conjuntos efectivos. Para cada instancia de entrenamiento, formamos un grupo grande y diverso de candidatos y variamos sistemáticamente los subconjuntos utilizados para el ajuste fino de calibración. Cada estrategia de selección se enfoca en aspectos distintos de los conjuntos, como la diversidad léxica o el tamaño de la brecha entre positivos y negativos. En tres conjuntos de datos diversos de resumen científico de formato largo (que abarcan dominios biomédicos, clínicos y químicos), encontramos, entre otros hallazgos, que la calibración de fidelidad es óptima cuando los conjuntos negativos son extractivos y más propensos a ser generados, mientras que para la calibración de relevancia, el margen de la métrica entre los candidatos debe maximizarse y la sorpresa—la discrepancia entre las clasificaciones de candidatos definidas por el modelo y la métrica—debe minimizarse. El código para crear, seleccionar y optimizar conjuntos de calibración está disponible en https://github.com/griff4692/calibrating-summaries.
English
Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries