Was sind die gewünschten Eigenschaften von Kalibrierungsdatensätzen? Identifizierung von Korrelationen bei der Langform-Zusammenfassung wissenschaftlicher Texte
What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization
May 12, 2023
Autoren: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI
Zusammenfassung
Zusammenfassungsmodelle erzeugen oft Texte, die schlecht an Qualitätsmetriken angepasst sind, da sie darauf trainiert sind, die Wahrscheinlichkeit einer einzelnen Referenz zu maximieren (MLE). Um dies zu beheben, haben neuere Arbeiten einen Kalibrierungsschritt hinzugefügt, bei dem ein Modell seinen eigenen, nach Rang geordneten Ausgaben ausgesetzt wird, um die Relevanz zu verbessern, oder, in einer separaten Forschungsrichtung, positive und negative Mengen kontrastiert werden, um die Treue zu erhöhen. Obwohl effektiv, hat sich ein Großteil dieser Arbeit darauf konzentriert, wie diese Mengen generiert und optimiert werden können. Weniger bekannt ist, warum ein bestimmter Ansatz effektiver ist als ein anderer. In dieser Arbeit untersuchen wir die zugrunde liegenden Eigenschaften effektiver Mengen. Für jede Trainingsinstanz bilden wir einen großen, vielfältigen Pool von Kandidaten und variieren systematisch die Teilmengen, die für die Kalibrierungsfeinabstimmung verwendet werden. Jede Auswahlstrategie zielt auf unterschiedliche Aspekte der Mengen ab, wie lexikalische Vielfalt oder die Größe der Lücke zwischen positiven und negativen Beispielen. Auf drei verschiedenen wissenschaftlichen Langform-Zusammenfassungsdatensätzen (die biomedizinische, klinische und chemische Domänen abdecken) finden wir unter anderem, dass die Kalibrierung der Treue optimal ist, wenn die negativen Mengen extraktiv sind und mit höherer Wahrscheinlichkeit generiert werden, während für die Relevanzkalibrierung der Metrikabstand zwischen den Kandidaten maximiert und die Überraschung – die Diskrepanz zwischen den vom Modell und der Metrik definierten Kandidatenrangfolgen – minimiert werden sollte. Code zum Erstellen, Auswählen und Optimieren von Kalibrierungsmengen ist verfügbar unter https://github.com/griff4692/calibrating-summaries.
English
Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries