Quali sono le caratteristiche desiderate dei set di calibrazione? Identificazione di correlazioni nella sintesi scientifica in forma estesa
What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization
May 12, 2023
Autori: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI
Abstract
I modelli di riassunto spesso generano testi scarsamente calibrati rispetto alle metriche di qualità perché sono addestrati per massimizzare la verosimiglianza di un singolo riferimento (MLE). Per affrontare questo problema, lavori recenti hanno introdotto una fase di calibrazione, che espone un modello ai propri output classificati per migliorare la rilevanza o, in un filone di ricerca separato, confronta insiemi positivi e negativi per migliorare la fedeltà. Sebbene efficaci, gran parte di questi lavori si è concentrata su come generare e ottimizzare questi insiemi. Meno si sa sul perché una configurazione sia più efficace di un'altra. In questo lavoro, scopriamo le caratteristiche sottostanti degli insiemi efficaci. Per ogni istanza di addestramento, formiamo un ampio e diversificato pool di candidati e variamo sistematicamente i sottoinsiemi utilizzati per il fine-tuning della calibrazione. Ogni strategia di selezione mira ad aspetti distintivi degli insiemi, come la diversità lessicale o l'ampiezza del divario tra positivi e negativi. Su tre diversi dataset di riassunto scientifico a lungo termine (che coprono i domini biomedico, clinico e chimico), troviamo, tra l'altro, che la calibrazione della fedeltà è ottimale quando gli insiemi negativi sono estrattivi e più probabili da generare, mentre per la calibrazione della rilevanza, il margine metrico tra i candidati dovrebbe essere massimizzato e la sorpresa—il disaccordo tra le classificazioni dei candidati definite dal modello e dalla metrica—minimizzata. Il codice per creare, selezionare e ottimizzare gli insiemi di calibrazione è disponibile all'indirizzo https://github.com/griff4692/calibrating-summaries.
English
Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries