ChatPaper.aiChatPaper

비상식적 추론: 비일상적 상황에 대한 귀추적 추론

UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations

November 14, 2023
저자: Wenting Zhao, Justin T Chiu, Jena D. Hwang, Faeze Brahman, Jack Hessel, Sanjiban Choudhury, Yejin Choi, Xiang Lorraine Li, Alane Suhr
cs.AI

초록

이벤트의 역학을 정확하게 모델링하는 언어 기술은 상식 추론을 수행해야 합니다. 기존의 상식 추론 평가 연구는 주로 일상적인 상황에 대한 추론에 초점을 맞추고 있습니다. 대신, 비정상적이고 예상치 못하며 발생 가능성이 낮은 상황을 모델링하는 능력을 조사하기 위해, 우리는 비상식적 귀납 추론(uncommonsense abductive reasoning) 작업을 탐구합니다. 이 작업은 예상치 못한 결과가 포함된 맥락이 주어졌을 때, 그 결과를 더 그럴듯하게 만드는 자연어 설명을 귀납적으로 생성하는 것을 요구합니다. 이를 위해, 우리는 UNcommonsense라는 새로운 영어 코퍼스를 구축하고 공개합니다. 우리는 인간 설명자와 최고 성능의 대형 언어 모델 간의 성능 차이를 분석하며, 모델이 강화된 인간 작성 설명이 특이성과 다양성 사이의 균형을 맞추어 가장 높은 품질을 달성함을 발견합니다. 마지막으로, 우리는 이 작업에 대해 개방적이고 접근 가능한 언어 모델을 훈련하기 위해 여러 온라인 모방 학습 알고리즘을 실험합니다. 인간 평가자에 의해 판단된 일반적 및 비상식적 귀납 추론에서, 이러한 방법들은 기본 지도 미세 조정 접근법과 비교했을 때 일관되게 손실률을 감소시킵니다.
English
Language technologies that accurately model the dynamics of events must perform commonsense reasoning. Existing work evaluating commonsense reasoning focuses on making inferences about common, everyday situations. To instead investigate the ability to model unusual, unexpected, and unlikely situations, we explore the task of uncommonsense abductive reasoning. Given a piece of context with an unexpected outcome, this task requires reasoning abductively to generate a natural language explanation that makes the unexpected outcome more likely in the context. To this end, we curate and release a new English language corpus called UNcommonsense. We characterize the differences between the performance of human explainers and the best performing large language models, finding that model-enhanced human-written explanations achieve the highest quality by trading off between specificity and diversity. Finally, we experiment with several online imitation learning algorithms to train open and accessible language models on this task. When compared with the vanilla supervised fine-tuning approach, these methods consistently reduce lose rates on both common and uncommonsense abductive reasoning judged by human evaluators.
PDF110December 15, 2024