InductionBench: LLM's Falen in de Eenvoudigste Complexiteitsklasse
InductionBench: LLMs Fail in the Simplest Complexity Class
February 20, 2025
Auteurs: Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke verbeteringen in redeneren laten zien en veel bestaande benchmarks zijn volledig of gedeeltelijk aangepakt door modellen zoals o1 en o3. Een meerderheid van deze benchmarks benadrukt echter deductief redeneren, inclusief wiskundige en coderingstaken waarbij regels zoals wiskundige axioma's of programmeersyntax duidelijk gedefinieerd zijn, op basis waarvan LLM's kunnen plannen en deze regels kunnen toepassen om tot een oplossing te komen. In tegenstelling hiermee blijft inductief redeneren, waarbij men de onderliggende regels afleidt uit waargenomen gegevens, minder onderzocht. Dergelijke inductieve processen vormen de kern van wetenschappelijke ontdekking, omdat ze onderzoekers in staat stellen algemene principes uit empirische waarnemingen te halen. Om te beoordelen of LLM's over deze capaciteit beschikken, introduceren we InductionBench, een nieuwe benchmark die is ontworpen om het inductieve redeneervermogen van LLM's te evalueren. Onze experimentele bevindingen tonen aan dat zelfs de meest geavanceerde beschikbare modellen moeite hebben om de eenvoudigste complexiteitsklassen binnen de subreguliere hiërarchie van functies onder de knie te krijgen, wat wijst op een opmerkelijk tekort in de inductieve redeneervaardigheden van huidige LLM's. Coda en gegevens zijn beschikbaar op https://github.com/Wenyueh/inductive_reasoning_benchmark.
English
Large language models (LLMs) have shown remarkable improvements in reasoning
and many existing benchmarks have been addressed by models such as o1 and o3
either fully or partially. However, a majority of these benchmarks emphasize
deductive reasoning, including mathematical and coding tasks in which rules
such as mathematical axioms or programming syntax are clearly defined, based on
which LLMs can plan and apply these rules to arrive at a solution. In contrast,
inductive reasoning, where one infers the underlying rules from observed data,
remains less explored. Such inductive processes lie at the heart of scientific
discovery, as they enable researchers to extract general principles from
empirical observations. To assess whether LLMs possess this capacity, we
introduce InductionBench, a new benchmark designed to evaluate the inductive
reasoning ability of LLMs. Our experimental findings reveal that even the most
advanced models available struggle to master the simplest complexity classes
within the subregular hierarchy of functions, highlighting a notable deficiency
in current LLMs' inductive reasoning capabilities. Coda and data are available
https://github.com/Wenyueh/inductive_reasoning_benchmark.Summary
AI-Generated Summary