ChatPaper.aiChatPaper

InductionBench: LLMs versagen in der einfachsten Komplexitätsklasse.

InductionBench: LLMs Fail in the Simplest Complexity Class

February 20, 2025
Autoren: Wenyue Hua, Tyler Wong, Sun Fei, Liangming Pan, Adam Jardine, William Yang Wang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Verbesserungen im Bereich des logischen Denkens gezeigt, und viele bestehende Benchmarks wurden entweder vollständig oder teilweise von Modellen wie o1 und o3 bearbeitet. Allerdings betonen die meisten dieser Benchmarks deduktives Denken, einschließlich mathematischer und kodierender Aufgaben, bei denen Regeln wie mathematische Axiome oder Programmiersyntax klar definiert sind, auf deren Grundlage LLMs planen und diese Regeln anwenden können, um zu einer Lösung zu gelangen. Im Gegensatz dazu bleibt induktives Denken, bei dem man die zugrunde liegenden Regeln aus beobachteten Daten ableitet, weniger erforscht. Solche induktiven Prozesse sind das Herzstück wissenschaftlicher Entdeckungen, da sie es Forschern ermöglichen, allgemeine Prinzipien aus empirischen Beobachtungen abzuleiten. Um zu bewerten, ob LLMs über diese Fähigkeit verfügen, stellen wir InductionBench vor, einen neuen Benchmark, der entworfen wurde, um die induktive Denkfähigkeit von LLMs zu bewerten. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten verfügbaren Modelle Schwierigkeiten haben, die einfachsten Komplexitätsklassen innerhalb der Subregular-Hierarchie von Funktionen zu meistern, was auf eine bemerkenswerte Defizienz in den induktiven Denkfähigkeiten aktueller LLMs hinweist. Der Code und die Daten sind verfügbar unter https://github.com/Wenyueh/inductive_reasoning_benchmark.
English
Large language models (LLMs) have shown remarkable improvements in reasoning and many existing benchmarks have been addressed by models such as o1 and o3 either fully or partially. However, a majority of these benchmarks emphasize deductive reasoning, including mathematical and coding tasks in which rules such as mathematical axioms or programming syntax are clearly defined, based on which LLMs can plan and apply these rules to arrive at a solution. In contrast, inductive reasoning, where one infers the underlying rules from observed data, remains less explored. Such inductive processes lie at the heart of scientific discovery, as they enable researchers to extract general principles from empirical observations. To assess whether LLMs possess this capacity, we introduce InductionBench, a new benchmark designed to evaluate the inductive reasoning ability of LLMs. Our experimental findings reveal that even the most advanced models available struggle to master the simplest complexity classes within the subregular hierarchy of functions, highlighting a notable deficiency in current LLMs' inductive reasoning capabilities. Coda and data are available https://github.com/Wenyueh/inductive_reasoning_benchmark.

Summary

AI-Generated Summary

PDF72February 25, 2025