InductionBench: LLM's Falen in de Eenvoudigste Complexiteitsklasse

Samenvatting

Grote taalmodellen (LLM's) hebben opmerkelijke verbeteringen in redeneren laten zien en veel bestaande benchmarks zijn volledig of gedeeltelijk aangepakt door modellen zoals o1 en o3. Een meerderheid van deze benchmarks benadrukt echter deductief redeneren, inclusief wiskundige en coderingstaken waarbij regels zoals wiskundige axioma's of programmeersyntax duidelijk gedefinieerd zijn, op basis waarvan LLM's kunnen plannen en deze regels kunnen toepassen om tot een oplossing te komen. In tegenstelling hiermee blijft inductief redeneren, waarbij men de onderliggende regels afleidt uit waargenomen gegevens, minder onderzocht. Dergelijke inductieve processen vormen de kern van wetenschappelijke ontdekking, omdat ze onderzoekers in staat stellen algemene principes uit empirische waarnemingen te halen. Om te beoordelen of LLM's over deze capaciteit beschikken, introduceren we InductionBench, een nieuwe benchmark die is ontworpen om het inductieve redeneervermogen van LLM's te evalueren. Onze experimentele bevindingen tonen aan dat zelfs de meest geavanceerde beschikbare modellen moeite hebben om de eenvoudigste complexiteitsklassen binnen de subreguliere hiërarchie van functies onder de knie te krijgen, wat wijst op een opmerkelijk tekort in de inductieve redeneervaardigheden van huidige LLM's. Coda en gegevens zijn beschikbaar op https://github.com/Wenyueh/inductive_reasoning_benchmark.

English

Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs' inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.

InductionBench: LLM's Falen in de Eenvoudigste Complexiteitsklasse

InductionBench: LLMs Fail in the Simplest Complexity Class

Samenvatting

Support