Menschen und LLMs weichen bei probabilistischen Inferenzen voneinander ab

Zusammenfassung

Menschliches Denken beinhaltet oft das Verarbeiten begrenzter Informationen, um zu probabilistischen Schlussfolgerungen zu gelangen. In seiner einfachsten Form bedeutet dies, eine Schlussfolgerung zu ziehen, die nicht strikt aus einer Prämisse folgt, sondern nur wahrscheinlich ist, gegeben die Prämisse. Während reasoning-fähige LLMs bei logischen und mathematischen Aufgaben starke Leistungen gezeigt haben, ist ihr Verhalten bei solchen offenen, nicht-deterministischen Schlussfolgerungen weitgehend unerforscht. Wir stellen ProbCOPA vor, einen Datensatz mit 210 handgefertigten probabilistischen Schlussfolgerungen auf Englisch, die jeweils von 25–30 menschlichen Teilnehmern hinsichtlich der Wahrscheinlichkeit der Schlussfolgerung annotiert wurden. Wir stellen fest, dass die menschlichen Antworten abgestuft und vielfältig sind und probabilistische Urteile über die Schlussfolgerungen in unserem Datensatz offenbaren. Ein Vergleich dieser Urteile mit den Antworten von acht state-of-the-art reasoning-LLMs zeigt, dass die Modelle durchweg nicht in der Lage sind, menschenähnliche Verteilungen zu erzeugen. Schließlich finden wir durch die Analyse der LLM-Begründungsketten Hinweise auf ein gemeinsames Denkmuster, das zur Bewertung solcher Schlussfolgerungen verwendet wird. Unsere Ergebnisse zeigen anhaltende Unterschiede zwischen Menschen und LLMs auf und unterstreichen die Notwendigkeit, Denkprozesse über deterministische Settings hinaus zu bewerten.

English

Human reasoning often involves working over limited information to arrive at probabilistic conclusions. In its simplest form, this involves making an inference that is not strictly entailed by a premise, but rather only likely given the premise. While reasoning LLMs have demonstrated strong performance on logical and mathematical tasks, their behavior on such open-ended, non-deterministic inferences remains largely unexplored. We introduce ProbCOPA, a dataset of 210 handcrafted probabilistic inferences in English, each annotated for inference likelihood by 25--30 human participants. We find that human responses are graded and varied, revealing probabilistic judgments of the inferences in our dataset. Comparing these judgments with responses from eight state-of-the-art reasoning LLMs, we show that models consistently fail to produce human-like distributions. Finally, analyzing LLM reasoning chains, we find evidence of a common reasoning pattern used to evaluate such inferences. Our findings reveal persistent differences between humans and LLMs, and underscore the need to evaluate reasoning beyond deterministic settings.

Menschen und LLMs weichen bei probabilistischen Inferenzen voneinander ab

Humans and LLMs Diverge on Probabilistic Inferences

Zusammenfassung

Support