Каковы желаемые характеристики калибровочных наборов? Выявление корреляций в задачах длинного научного суммирования
What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization
May 12, 2023
Авторы: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI
Аннотация
Модели суммаризации часто генерируют текст, который плохо согласуется с метриками качества, поскольку они обучаются на максимизацию правдоподобия единственного эталонного текста (MLE). Чтобы решить эту проблему, в последних работах был добавлен этап калибровки, который позволяет модели взаимодействовать с её ранжированными выходами для улучшения релевантности или, в другом направлении, сопоставляет положительные и отрицательные наборы для повышения достоверности. Хотя эти подходы эффективны, большая часть исследований сосредоточена на том, как генерировать и оптимизировать такие наборы. Меньше известно о том, почему одна конфигурация оказывается более эффективной, чем другая. В данной работе мы исследуем ключевые характеристики эффективных наборов. Для каждого обучающего примера мы формируем большой и разнообразный пул кандидатов и систематически варьируем подмножества, используемые для тонкой настройки калибровки. Каждая стратегия выбора ориентируется на различные аспекты наборов, такие как лексическое разнообразие или размер разрыва между положительными и отрицательными примерами. На трёх разнообразных наборах данных для научного суммаризации длинных текстов (охватывающих биомедицинскую, клиническую и химическую области) мы обнаруживаем, среди прочего, что калибровка достоверности оптимальна, когда отрицательные наборы являются экстрактивными и с большей вероятностью генерируются, тогда как для калибровки релевантности следует максимизировать разницу в метриках между кандидатами и минимизировать "сюрприз" — расхождение между ранжированием кандидатов моделью и метрикой. Код для создания, выбора и оптимизации наборов калибровки доступен по адресу https://github.com/griff4692/calibrating-summaries.
English
Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries