ChatPaper.aiChatPaper

校正セットに求められる特性とは何か?長文科学要約における相関関係の特定

What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization

May 12, 2023
著者: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI

要旨

要約モデルは、単一の参照文書の尤度を最大化するように訓練される(MLE)ため、品質指標に対して不適切に調整されたテキストを生成することが多い。この問題に対処するため、最近の研究では、モデルが自身のランク付けされた出力にさらされるキャリブレーションステップを追加し、関連性を向上させるか、別の研究ラインでは、忠実性を向上させるためにポジティブセットとネガティブセットを対比させている。これらのアプローチは効果的であるが、その多くはこれらのセットを生成し最適化する方法に焦点を当てている。なぜある設定が他の設定よりも効果的であるかについては、あまり知られていない。本研究では、効果的なセットの根本的な特性を明らかにする。各訓練インスタンスに対して、大規模で多様な候補プールを形成し、キャリブレーションファインチューニングに使用されるサブセットを体系的に変化させる。各選択戦略は、語彙の多様性やポジティブとネガティブの間のギャップの大きさなど、セットの異なる側面を対象とする。生物医学、臨床、化学の分野にまたがる3つの多様な科学分野の長文要約データセットにおいて、忠実性のキャリブレーションは、ネガティブセットが抽出可能で生成されやすい場合に最適であり、関連性のキャリブレーションでは、候補間のメトリックの差を最大化し、モデルとメトリックが定義する候補ランキングの不一致(サプライズ)を最小化するべきであることがわかった。キャリブレーションセットを作成、選択、最適化するコードは、https://github.com/griff4692/calibrating-summaries で公開されている。
English
Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on how to generate and optimize these sets. Less is known about why one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise--the disagreement between model and metric defined candidate rankings--minimized. Code to create, select, and optimize calibration sets is available at https://github.com/griff4692/calibrating-summaries
PDF11December 15, 2024