ChatPaper.aiChatPaper

InductionBench : les LLM échouent dans la classe de complexité la plus simple

InductionBench: LLMs Fail in the Simplest Complexity Class

February 20, 2025
Auteurs: Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont montré des améliorations remarquables en matière de raisonnement, et de nombreux benchmarks existants ont été résolus, en totalité ou en partie, par des modèles tels que o1 et o3. Cependant, la majorité de ces benchmarks mettent l'accent sur le raisonnement déductif, incluant des tâches mathématiques et de programmation où les règles, telles que les axiomes mathématiques ou la syntaxe de programmation, sont clairement définies, permettant aux LLMs de planifier et d'appliquer ces règles pour parvenir à une solution. En revanche, le raisonnement inductif, où l'on infère les règles sous-jacentes à partir de données observées, reste moins exploré. Ces processus inductifs sont au cœur de la découverte scientifique, car ils permettent aux chercheurs d'extraire des principes généraux à partir d'observations empiriques. Pour évaluer si les LLMs possèdent cette capacité, nous introduisons InductionBench, un nouveau benchmark conçu pour évaluer la capacité de raisonnement inductif des LLMs. Nos résultats expérimentaux révèlent que même les modèles les plus avancés disponibles peinent à maîtriser les classes de complexité les plus simples au sein de la hiérarchie sous-régulière des fonctions, mettant en évidence une lacune notable dans les capacités de raisonnement inductif des LLMs actuels. Le code et les données sont disponibles à l'adresse suivante : https://github.com/Wenyueh/inductive_reasoning_benchmark.
English
Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs' inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.

Summary

AI-Generated Summary

PDF72February 25, 2025