Люди и большие языковые модели расходятся в вероятностных умозаключениях

Аннотация

Человеческое рассуждение часто предполагает работу с ограниченной информацией для получения вероятностных выводов. В своей простейшей форме это включает в себя построение умозаключения, которое не следует строго из посылки, а лишь является вероятным при данной посылке. Хотя рассуждающие большие языковые модели (LLM) продемонстрировали высокую производительность на логических и математических задачах, их поведение в таких открытых, недетерминированных умозаключениях остается в значительной степени неисследованным. Мы представляем ProbCOPA — набор данных из 210 тщательно разработанных вероятностных умозаключений на английском языке, каждое из которых аннотировано с точки зрения вероятности вывода 25–30 участниками-людьми. Мы обнаруживаем, что человеческие ответы являются градуированными и разнообразными, раскрывая вероятностные оценки умозаключений в нашем наборе данных. Сравнивая эти оценки с ответами восьми передовых рассуждающих LLM, мы показываем, что модели последовательно не способны воспроизводить распределения, подобные человеческим. Наконец, анализируя цепочки рассуждений LLM, мы находим свидетельства общего шаблона рассуждений, используемого для оценки таких умозаключений. Наши результаты выявляют устойчивые различия между людьми и LLM и подчеркивают необходимость оценивать рассуждения за пределами детерминированных условий.

English

Human reasoning often involves working over limited information to arrive at probabilistic conclusions. In its simplest form, this involves making an inference that is not strictly entailed by a premise, but rather only likely given the premise. While reasoning LLMs have demonstrated strong performance on logical and mathematical tasks, their behavior on such open-ended, non-deterministic inferences remains largely unexplored. We introduce ProbCOPA, a dataset of 210 handcrafted probabilistic inferences in English, each annotated for inference likelihood by 25--30 human participants. We find that human responses are graded and varied, revealing probabilistic judgments of the inferences in our dataset. Comparing these judgments with responses from eight state-of-the-art reasoning LLMs, we show that models consistently fail to produce human-like distributions. Finally, analyzing LLM reasoning chains, we find evidence of a common reasoning pattern used to evaluate such inferences. Our findings reveal persistent differences between humans and LLMs, and underscore the need to evaluate reasoning beyond deterministic settings.

Люди и большие языковые модели расходятся в вероятностных умозаключениях

Humans and LLMs Diverge on Probabilistic Inferences

Аннотация

Support