General365: Bewertung des allgemeinen Denkvermögens großer Sprachmodelle anhand vielfältiger und anspruchsvoller Aufgaben

Zusammenfassung

Aktuelle große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten im logischen Schlussfolgern gezeigt, insbesondere in spezialisierten Domänen wie Mathematik und Physik. Ihre Fähigkeit, diese Schlussfolgerungsfähigkeiten auf allgemeinere und breitere Kontexte zu übertragen – oft als allgemeines logisches Denken bezeichnet – bleibt jedoch wenig erforscht. Im Gegensatz zu domänenspezifischem Denken ist allgemeines logisches Denken weniger von Expertenwissen abhängig, stellt aber dennoch enorme Herausforderungen dar, wie komplexe Randbedingungen, verschachtelte logische Verzweigungen und semantische Interferenzen. Um diese Lücke zu schließen, stellen wir General365 vor, einen Benchmark, der speziell zur Bewertung des allgemeinen logischen Denkens in LLMs entwickelt wurde. Indem das Hintergrundwissen auf ein Niveau der Sekundarstufe begrenzt wird, entkoppelt General365 ausdrücklich das logische Denken von spezialisiertem Fachwissen. Der Benchmark umfasst 365 Ausgangsprobleme und 1.095 Variantenprobleme aus acht Kategorien, die sowohl hohe Schwierigkeit als auch Vielfalt gewährleisten. Evaluationen über 26 führende LLMs hinweg zeigen, dass selbst das leistungsstärkste Modell nur eine Genauigkeit von 62,8 % erreicht, im starken Gegensatz zu den nahezu perfekten Leistungen von LLMs in Mathematik- und Physik-Benchmarks. Diese Ergebnisse deuten darauf hin, dass die Denkfähigkeiten aktueller LLMs stark domänenabhängig sind, was erheblichen Spielraum für Verbesserungen bei breiteren Anwendungen lässt. Wir sehen General365 als Katalysator für die Weiterentwicklung des LLM-Denkens über domänenspezifische Aufgaben hinaus hin zu robusten, allgemeinen Anwendungsszenarien in der realen Welt. Code, Datensatz und Bestenliste: https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365: Bewertung des allgemeinen Denkvermögens großer Sprachmodelle anhand vielfältiger und anspruchsvoller Aufgaben

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Zusammenfassung

Support