ChatPaper.aiChatPaper

Umani e LLM divergono nelle inferenze probabilistiche

Humans and LLMs Diverge on Probabilistic Inferences

February 26, 2026
Autori: Gaurav Kamath, Sreenath Madathil, Sebastian Schuster, Marie-Catherine de Marneffe, Siva Reddy
cs.AI

Abstract

Il ragionamento umano spesso implica lavorare su informazioni limitate per giungere a conclusioni probabilistiche. Nella sua forma più semplice, ciò comporta fare un'inferenza che non è strettamente implicata da una premessa, ma solo probabile data la premessa. Sebbene gli LLM deduttivi abbiano dimostrato prestazioni elevate in compiti logici e matematici, il loro comportamento in tali inferenze aperte e non deterministiche rimane in gran parte inesplorato. Introduciamo ProbCOPA, un dataset di 210 inferenze probabilistiche create manualmente in inglese, ciascuna annotata per la probabilità inferenziale da 25-30 partecipanti umani. Scopriamo che le risposte umane sono graduate e variegate, rivelando giudizi probabilistici sulle inferenze nel nostro dataset. Confrontando questi giudizi con le risposte di otto LLM deduttivi all'avanguardia, dimostriamo che i modelli falliscono sistematicamente nel produrre distribuzioni simili a quelle umane. Infine, analizzando le catene deduttive degli LLM, troviamo evidenza di un modello di ragionamento comune utilizzato per valutare tali inferenze. I nostri risultati rivelano differenze persistenti tra umani e LLM e sottolineano la necessità di valutare il ragionamento al di là di contesti deterministici.
English
Human reasoning often involves working over limited information to arrive at probabilistic conclusions. In its simplest form, this involves making an inference that is not strictly entailed by a premise, but rather only likely given the premise. While reasoning LLMs have demonstrated strong performance on logical and mathematical tasks, their behavior on such open-ended, non-deterministic inferences remains largely unexplored. We introduce ProbCOPA, a dataset of 210 handcrafted probabilistic inferences in English, each annotated for inference likelihood by 25--30 human participants. We find that human responses are graded and varied, revealing probabilistic judgments of the inferences in our dataset. Comparing these judgments with responses from eight state-of-the-art reasoning LLMs, we show that models consistently fail to produce human-like distributions. Finally, analyzing LLM reasoning chains, we find evidence of a common reasoning pattern used to evaluate such inferences. Our findings reveal persistent differences between humans and LLMs, and underscore the need to evaluate reasoning beyond deterministic settings.
PDF112March 7, 2026