ChatPaper.aiChatPaper

교정 세트의 바람직한 특성은 무엇인가? 장편 과학 요약에서 상관관계 식별하기

What are the Desired Characteristics of Calibration Sets? Identifying Correlates on Long Form Scientific Summarization

May 12, 2023
저자: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie, Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, Noémie Elhadad
cs.AI

초록

요약 모델은 종종 단일 참조(최대우도추정, MLE)의 가능성을 극대화하도록 훈련되기 때문에 품질 지표에 잘 맞지 않는 텍스트를 생성하는 경우가 많습니다. 이를 해결하기 위해 최근 연구에서는 모델이 자신의 순위가 매겨진 출력을 접하도록 하여 관련성을 개선하거나, 별도의 연구 흐름에서 긍정적 및 부정적 집합을 대조하여 신뢰성을 개선하는 보정 단계를 추가했습니다. 이러한 접근법은 효과적이지만, 대부분의 연구는 이러한 집합을 생성하고 최적화하는 방법에 초점을 맞추고 있습니다. 왜 한 설정이 다른 설정보다 더 효과적인지에 대해서는 알려진 바가 적습니다. 본 연구에서는 효과적인 집합의 근본적인 특성을 밝혀냅니다. 각 훈련 인스턴스에 대해 크고 다양한 후보 풀을 형성하고, 보정 미세 조정에 사용되는 부분 집합을 체계적으로 변화시킵니다. 각 선택 전략은 어휘 다양성이나 긍정적 및 부정적 후보 간의 격차 크기와 같은 집합의 다양한 측면을 목표로 합니다. 생의학, 임상, 화학 분야에 걸친 세 가지 다양한 과학 장문 요약 데이터셋에서, 신뢰성 보정은 부정적 집합이 추출적이고 생성될 가능성이 더 높을 때 최적이며, 관련성 보정의 경우 후보 간의 지표 차이를 극대화하고 모델과 지표 정의 후보 순위 간의 불일치(놀라움)를 최소화해야 한다는 것을 발견했습니다. 보정 집합을 생성, 선택, 최적화하기 위한 코드는 https://github.com/griff4692/calibrating-summaries에서 확인할 수 있습니다.
English
Summarization models often generate text that is poorly calibrated to quality metrics because they are trained to maximize the likelihood of a single reference (MLE). To address this, recent work has added a calibration step, which exposes a model to its own ranked outputs to improve relevance or, in a separate line of work, contrasts positive and negative sets to improve faithfulness. While effective, much of this work has focused on how to generate and optimize these sets. Less is known about why one setup is more effective than another. In this work, we uncover the underlying characteristics of effective sets. For each training instance, we form a large, diverse pool of candidates and systematically vary the subsets used for calibration fine-tuning. Each selection strategy targets distinct aspects of the sets, such as lexical diversity or the size of the gap between positive and negatives. On three diverse scientific long-form summarization datasets (spanning biomedical, clinical, and chemical domains), we find, among others, that faithfulness calibration is optimal when the negative sets are extractive and more likely to be generated, whereas for relevance calibration, the metric margin between candidates should be maximized and surprise--the disagreement between model and metric defined candidate rankings--minimized. Code to create, select, and optimize calibration sets is available at https://github.com/griff4692/calibrating-summaries
PDF11December 15, 2024