General365: Het benchmarken van algemeen redeneervermogen in grote taalmodellen over diverse en uitdagende taken

Samenvatting

Moderne grote taalmodellen (LLM's) hebben opmerkelijke redeneervermogens getoond, met name in gespecialiseerde domeinen zoals wiskunde en natuurkunde. Hun vermogen om deze redeneervaardigheden te generaliseren naar meer algemene en bredere contexten – vaak aangeduid als algemeen redeneren – blijft echter onderbelicht. In tegenstelling tot domeinspecifiek redeneren, is algemeen redeneren minder afhankelijk van expertkennis, maar stelt het niettemin aanzienlijke redeneeruitdagingen, zoals complexe beperkingen, geneste logische vertakkingen en semantische interferentie. Om deze kloof te dichten, introduceren wij General365, een benchmark die specifiek is ontworpen om algemeen redeneren in LLM's te evalueren. Door de benodigde voorkennis te beperken tot middelbareschoolniveau, ontkoppelt General365 uitdrukkelijk redeneren van gespecialiseerde expertise. De benchmark omvat 365 basisproblemen en 1.095 variantproblemen verdeeld over acht categorieën, wat zowel hoge moeilijkheidsgraad als diversiteit waarborgt. Evaluaties van 26 toonaangevende LLM's tonen aan dat zelfs het best presterende model slechts 62,8% nauwkeurigheid bereikt, in schril contrast met de bijna perfecte prestaties van LLM's in wiskunde- en natuurkundebenchmarks. Deze resultaten suggereren dat de redeneervermogens van huidige LLM's zwaar domeinafhankelijk zijn, waardoor er aanzienlijke ruimte voor verbetering blijft in bredere toepassingen. Wij zien General365 als een katalysator voor het bevorderen van LLM-redeneren voorbij domeinspecifieke taken, in de richting van robuuste, algemene real-world scenario's. Code, dataset en leaderboard: https://general365.github.io

English

Contemporary large language models (LLMs) have demonstrated remarkable reasoning capabilities, particularly in specialized domains like mathematics and physics. However, their ability to generalize these reasoning skills to more general and broader contexts--often termed general reasoning--remains under-explored. Unlike domain-specific reasoning, general reasoning relies less on expert knowledge but still presents formidable reasoning challenges, such as complex constraints, nested logical branches, and semantic interference. To address this gap, we introduce General365, a benchmark specifically designed to assess general reasoning in LLMs. By restricting background knowledge to a K-12 level, General365 explicitly decouples reasoning from specialized expertise. The benchmark comprises 365 seed problems and 1,095 variant problems across eight categories, ensuring both high difficulty and diversity. Evaluations across 26 leading LLMs reveal that even the top-performing model achieves only 62.8% accuracy, in stark contrast to the near-perfect performances of LLMs in math and physics benchmarks. These results suggest that the reasoning abilities of current LLMs are heavily domain-dependent, leaving significant room for improvement in broader applications. We envision General365 as a catalyst for advancing LLM reasoning beyond domain-specific tasks toward robust, general-purpose real-world scenarios. Code, Dataset, and Leaderboard: https://general365.github.io

General365: Het benchmarken van algemeen redeneervermogen in grote taalmodellen over diverse en uitdagende taken

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

Samenvatting

Support