InductionBench: LLMs versagen in der einfachsten Komplexitätsklasse.
InductionBench: LLMs Fail in the Simplest Complexity Class
February 20, 2025
Autoren: Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Verbesserungen im Bereich des logischen Denkens gezeigt, und viele bestehende Benchmarks wurden entweder vollständig oder teilweise von Modellen wie o1 und o3 bearbeitet. Allerdings betonen die meisten dieser Benchmarks deduktives Denken, einschließlich mathematischer und kodierender Aufgaben, bei denen Regeln wie mathematische Axiome oder Programmiersyntax klar definiert sind, auf deren Grundlage LLMs planen und diese Regeln anwenden können, um zu einer Lösung zu gelangen. Im Gegensatz dazu bleibt induktives Denken, bei dem man die zugrunde liegenden Regeln aus beobachteten Daten ableitet, weniger erforscht. Solche induktiven Prozesse sind das Herzstück wissenschaftlicher Entdeckungen, da sie es Forschern ermöglichen, allgemeine Prinzipien aus empirischen Beobachtungen abzuleiten. Um zu bewerten, ob LLMs über diese Fähigkeit verfügen, stellen wir InductionBench vor, einen neuen Benchmark, der entworfen wurde, um die induktive Denkfähigkeit von LLMs zu bewerten. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten verfügbaren Modelle Schwierigkeiten haben, die einfachsten Komplexitätsklassen innerhalb der Subregular-Hierarchie von Funktionen zu meistern, was auf eine bemerkenswerte Defizienz in den induktiven Denkfähigkeiten aktueller LLMs hinweist. Der Code und die Daten sind verfügbar unter https://github.com/Wenyueh/inductive_reasoning_benchmark.
English
Large language models (LLMs) have shown remarkable improvements in reasoning
and many existing benchmarks have been addressed by models such as o1 and o3
either fully or partially. However, a majority of these benchmarks emphasize
deductive reasoning, including mathematical and coding tasks in which rules
such as mathematical axioms or programming syntax are clearly defined, based on
which LLMs can plan and apply these rules to arrive at a solution. In contrast,
inductive reasoning, where one infers the underlying rules from observed data,
remains less explored. Such inductive processes lie at the heart of scientific
discovery, as they enable researchers to extract general principles from
empirical observations. To assess whether LLMs possess this capacity, we
introduce InductionBench, a new benchmark designed to evaluate the inductive
reasoning ability of LLMs. Our experimental findings reveal that even the most
advanced models available struggle to master the simplest complexity classes
within the subregular hierarchy of functions, highlighting a notable deficiency
in current LLMs' inductive reasoning capabilities. Coda and data are available
https://github.com/Wenyueh/inductive_reasoning_benchmark.Summary
AI-Generated Summary