Raciocínio Fora do Comum: Raciocínio Abutivo sobre Situações Incomuns

Resumo

Tecnologias de linguagem que modelam com precisão a dinâmica dos eventos devem realizar raciocínio de senso comum. Trabalhos existentes que avaliam o raciocínio de senso comum concentram-se em fazer inferências sobre situações cotidianas e comuns. Para, em vez disso, investigar a capacidade de modelar situações incomuns, inesperadas e improváveis, exploramos a tarefa de raciocínio abdutivo de senso incomum. Dado um contexto com um resultado inesperado, essa tarefa exige raciocínio abdutivo para gerar uma explicação em linguagem natural que torne o resultado inesperado mais provável no contexto. Para isso, criamos e disponibilizamos um novo corpus em inglês chamado UNcommonsense. Caracterizamos as diferenças entre o desempenho de explicadores humanos e os melhores modelos de linguagem de grande escala, descobrindo que explicações escritas por humanos aprimoradas por modelos alcançam a mais alta qualidade ao equilibrar especificidade e diversidade. Por fim, experimentamos com vários algoritmos de aprendizado por imitação online para treinar modelos de linguagem abertos e acessíveis nessa tarefa. Quando comparados com a abordagem convencional de ajuste fino supervisionado, esses métodos reduzem consistentemente as taxas de perda tanto no raciocínio abdutivo comum quanto no de senso incomum, conforme avaliado por avaliadores humanos.

English

Language technologies that accurately model the dynamics of events must perform commonsense reasoning. Existing work evaluating commonsense reasoning focuses on making inferences about common, everyday situations. To instead investigate the ability to model unusual, unexpected, and unlikely situations, we explore the task of uncommonsense abductive reasoning. Given a piece of context with an unexpected outcome, this task requires reasoning abductively to generate a natural language explanation that makes the unexpected outcome more likely in the context. To this end, we curate and release a new English language corpus called UNcommonsense. We characterize the differences between the performance of human explainers and the best performing large language models, finding that model-enhanced human-written explanations achieve the highest quality by trading off between specificity and diversity. Finally, we experiment with several online imitation learning algorithms to train open and accessible language models on this task. When compared with the vanilla supervised fine-tuning approach, these methods consistently reduce lose rates on both common and uncommonsense abductive reasoning judged by human evaluators.

Raciocínio Fora do Comum: Raciocínio Abutivo sobre Situações Incomuns

UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations

Resumo

Support