Les humains et les LLM divergent dans leurs inférences probabilistes

Résumé

Le raisonnement humain implique souvent de travailler avec des informations limitées pour parvenir à des conclusions probabilistes. Dans sa forme la plus simple, cela consiste à faire une inférence qui n'est pas strictement impliquée par une prémisse, mais seulement probable étant donné cette prémisse. Bien que les grands modèles de langage (LLM) raisonneurs aient démontré de solides performances sur des tâches logiques et mathématiques, leur comportement face à de telles inférences non déterministes et ouvertes reste largement inexploré. Nous présentons ProbCOPA, un jeu de données de 210 inférences probabilistes élaborées manuellement en anglais, chacune annotée pour la vraisemblance de l'inférence par 25 à 30 participants humains. Nous constatons que les réponses humaines sont nuancées et variées, révélant des jugements probabilistes concernant les inférences de notre jeu de données. En comparant ces jugements avec les réponses de huit LLM raisonneurs de pointe, nous montrons que les modèles échouent systématiquement à produire des distributions similaires à celles des humains. Enfin, en analysant les chaînes de raisonnement des LLM, nous trouvons des preuves d'un schéma de raisonnement commun utilisé pour évaluer de telles inférences. Nos résultats révèlent des différences persistantes entre les humains et les LLM et soulignent la nécessité d'évaluer le raisonnement au-delà des cadres déterministes.

English

Human reasoning often involves working over limited information to arrive at probabilistic conclusions. In its simplest form, this involves making an inference that is not strictly entailed by a premise, but rather only likely given the premise. While reasoning LLMs have demonstrated strong performance on logical and mathematical tasks, their behavior on such open-ended, non-deterministic inferences remains largely unexplored. We introduce ProbCOPA, a dataset of 210 handcrafted probabilistic inferences in English, each annotated for inference likelihood by 25--30 human participants. We find that human responses are graded and varied, revealing probabilistic judgments of the inferences in our dataset. Comparing these judgments with responses from eight state-of-the-art reasoning LLMs, we show that models consistently fail to produce human-like distributions. Finally, analyzing LLM reasoning chains, we find evidence of a common reasoning pattern used to evaluate such inferences. Our findings reveal persistent differences between humans and LLMs, and underscore the need to evaluate reasoning beyond deterministic settings.

Les humains et les LLM divergent dans leurs inférences probabilistes

Humans and LLMs Diverge on Probabilistic Inferences

Résumé

Support