Quais são as Características Desejadas dos Conjuntos de Calibração? Identificando Correlações na Sumarização Científica de Longo Formato
What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization
May 12, 2023
Autores: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI
Resumo
Modelos de sumarização frequentemente geram textos mal calibrados em relação a métricas de qualidade porque são treinados para maximizar a verossimilhança de uma única referência (MLE). Para resolver isso, trabalhos recentes adicionaram uma etapa de calibração, que expõe o modelo às suas próprias saídas ranqueadas para melhorar a relevância ou, em uma linha de pesquisa separada, contrastam conjuntos positivos e negativos para melhorar a fidelidade. Embora eficazes, grande parte desses trabalhos tem se concentrado em como gerar e otimizar esses conjuntos. Menos se sabe sobre por que uma configuração é mais eficaz do que outra. Neste trabalho, descobrimos as características subjacentes dos conjuntos eficazes. Para cada instância de treinamento, formamos um grande e diversificado conjunto de candidatos e variamos sistematicamente os subconjuntos usados para o ajuste fino de calibração. Cada estratégia de seleção visa aspectos distintos dos conjuntos, como diversidade lexical ou o tamanho da lacuna entre positivos e negativos. Em três conjuntos de dados diversos de sumarização científica de longo formato (abrangendo domínios biomédicos, clínicos e químicos), descobrimos, entre outras coisas, que a calibração de fidelidade é ideal quando os conjuntos negativos são extrativos e mais propensos a serem gerados, enquanto para a calibração de relevância, a margem da métrica entre os candidatos deve ser maximizada e a surpresa—o desacordo entre o modelo e as classificações dos candidatos definidas pela métrica—minimizada. O código para criar, selecionar e otimizar conjuntos de calibração está disponível em https://github.com/griff4692/calibrating-summaries.
English
Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries