Wat zijn de gewenste kenmerken van calibratiesets? Het identificeren van correlaties bij het maken van lange wetenschappelijke samenvattingen

Samenvatting

Samenvattingsmodellen genereren vaak tekst die slecht is afgestemd op kwaliteitsmetrieken omdat ze zijn getraind om de waarschijnlijkheid van een enkele referentie te maximaliseren (MLE). Om dit aan te pakken, heeft recent werk een kalibratiestap toegevoegd, waarbij een model wordt blootgesteld aan zijn eigen gerangschikte uitvoer om de relevantie te verbeteren, of, in een aparte onderzoekslijn, positieve en negatieve sets worden gecontrasteerd om de betrouwbaarheid te verbeteren. Hoewel effectief, heeft veel van dit werk zich gericht op het genereren en optimaliseren van deze sets. Er is minder bekend over waarom de ene opzet effectiever is dan de andere. In dit werk ontrafelen we de onderliggende kenmerken van effectieve sets. Voor elke trainingsinstantie vormen we een grote, diverse pool van kandidaten en variëren we systematisch de subsets die worden gebruikt voor kalibratiefinetuning. Elke selectiestrategie richt zich op verschillende aspecten van de sets, zoals lexicale diversiteit of de grootte van het verschil tussen positieve en negatieve voorbeelden. Op drie diverse wetenschappelijke langlopende samenvattingsdatasets (die biomedische, klinische en chemische domeinen bestrijken), vinden we onder andere dat kalibratie voor betrouwbaarheid optimaal is wanneer de negatieve sets extractief zijn en waarschijnlijker worden gegenereerd, terwijl voor kalibratie van relevantie de metrieke marge tussen kandidaten gemaximaliseerd moet worden en verrassing—de onenigheid tussen model- en metrieke kandidaatrangschikkingen—geminimaliseerd moet worden. Code om kalibratiesets te creëren, selecteren en optimaliseren is beschikbaar op https://github.com/griff4692/calibrating-summaries.

English

Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on how to generate and optimize these sets. Less is known about why one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise--the disagreement between model and metric defined candidate rankings--minimized. Code to create, select, and optimize calibration sets is available at https://github.com/griff4692/calibrating-summaries

Wat zijn de gewenste kenmerken van calibratiesets? Het identificeren van correlaties bij het maken van lange wetenschappelijke samenvattingen

What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization

Samenvatting

Support