Quelles sont les caractéristiques souhaitées des ensembles de calibration ? Identification des corrélations dans la synthèse scientifique de longue forme

Résumé

Les modèles de synthèse génèrent souvent des textes mal calibrés par rapport aux métriques de qualité, car ils sont entraînés à maximiser la vraisemblance d'une seule référence (MLE). Pour remédier à cela, des travaux récents ont introduit une étape de calibration, qui expose un modèle à ses propres sorties classées pour améliorer la pertinence ou, dans une autre approche, contrastent des ensembles positifs et négatifs pour renforcer la fidélité. Bien qu'efficaces, ces travaux se sont principalement concentrés sur la génération et l'optimisation de ces ensembles. On en sait moins sur les raisons pour lesquelles une configuration est plus efficace qu'une autre. Dans cette étude, nous explorons les caractéristiques sous-jacentes des ensembles efficaces. Pour chaque instance d'entraînement, nous constituons un large et diversifié pool de candidats et faisons varier systématiquement les sous-ensembles utilisés pour le réglage fin de calibration. Chaque stratégie de sélection cible des aspects distincts des ensembles, tels que la diversité lexicale ou l'écart entre les positifs et les négatifs. Sur trois ensembles de données variés de synthèse scientifique longue (couvrant les domaines biomédical, clinique et chimique), nous constatons, entre autres, que la calibration de fidélité est optimale lorsque les ensembles négatifs sont extractifs et plus susceptibles d'être générés, tandis que pour la calibration de pertinence, la marge métrique entre les candidats doit être maximisée et la surprise—le désaccord entre les classements des candidats définis par le modèle et la métrique—minimisée. Le code pour créer, sélectionner et optimiser les ensembles de calibration est disponible à l'adresse suivante : https://github.com/griff4692/calibrating-summaries.

English

Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on how to generate and optimize these sets. Less is known about why one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise--the disagreement between model and metric defined candidate rankings--minimized. Code to create, select, and optimize calibration sets is available at https://github.com/griff4692/calibrating-summaries

Quelles sont les caractéristiques souhaitées des ensembles de calibration ? Identification des corrélations dans la synthèse scientifique de longue forme

What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization

Résumé

Support