Quelles sont les caractéristiques souhaitées des ensembles de calibration ? Identification des corrélations dans la synthèse scientifique de longue forme
What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization
May 12, 2023
Auteurs: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI
Résumé
Les modèles de synthèse génèrent souvent des textes mal calibrés par rapport aux métriques de qualité, car ils sont entraînés à maximiser la vraisemblance d'une seule référence (MLE). Pour remédier à cela, des travaux récents ont introduit une étape de calibration, qui expose un modèle à ses propres sorties classées pour améliorer la pertinence ou, dans une autre approche, contrastent des ensembles positifs et négatifs pour renforcer la fidélité. Bien qu'efficaces, ces travaux se sont principalement concentrés sur la génération et l'optimisation de ces ensembles. On en sait moins sur les raisons pour lesquelles une configuration est plus efficace qu'une autre. Dans cette étude, nous explorons les caractéristiques sous-jacentes des ensembles efficaces. Pour chaque instance d'entraînement, nous constituons un large et diversifié pool de candidats et faisons varier systématiquement les sous-ensembles utilisés pour le réglage fin de calibration. Chaque stratégie de sélection cible des aspects distincts des ensembles, tels que la diversité lexicale ou l'écart entre les positifs et les négatifs. Sur trois ensembles de données variés de synthèse scientifique longue (couvrant les domaines biomédical, clinique et chimique), nous constatons, entre autres, que la calibration de fidélité est optimale lorsque les ensembles négatifs sont extractifs et plus susceptibles d'être générés, tandis que pour la calibration de pertinence, la marge métrique entre les candidats doit être maximisée et la surprise—le désaccord entre les classements des candidats définis par le modèle et la métrique—minimisée. Le code pour créer, sélectionner et optimiser les ensembles de calibration est disponible à l'adresse suivante : https://github.com/griff4692/calibrating-summaries.
English
Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries